PromoPersona: как мы персонализировали промо-коллажи с помощью FLUX.2. ai.. ai. flux.2.. ai. flux.2. machine learning.. ai. flux.2. machine learning. magnit tech.. ai. flux.2. machine learning. magnit tech. генеративные модели.. ai. flux.2. machine learning. magnit tech. генеративные модели. диффузионные модели.. ai. flux.2. machine learning. magnit tech. генеративные модели. диффузионные модели. компьютерное зрение.. ai. flux.2. machine learning. magnit tech. генеративные модели. диффузионные модели. компьютерное зрение. персонализация.. ai. flux.2. machine learning. magnit tech. генеративные модели. диффузионные модели. компьютерное зрение. персонализация. ритейл.

Меня зовут Сергей Чекменев, я тимлид ML-команды развития массового промо и монетизации центра развития ML-решений клиентской персонализации в MAGNIT TECH. В этой статье расскажу про наш MVP-проект PromoPersona – сервис автоматической генерации персонализированных промо-коллажей: что именно мы построили с технической точки зрения, как интегрировали модель FLUX.2 и почему именно ее,  и какие инженерные задачи пришлось решить. Отдельная благодарность коллегам по команде и нашему руководителю центра Максиму Горынцову.

PromoPersona: как мы персонализировали промо-коллажи с помощью FLUX.2 - 1

Проблема: стандартный коллаж стал фоновым шумом

Ритейл – это постоянный поток промо-кампаний: сотни акций в месяц, тысячи SKU, множество каналов коммуникации. За каждой маркетинговой кампанией стоит визуальный контент – баннеры в приложении, пуш-уведомления, карточки офферов. Исторически этот контент создавался по единому принципу: берём фотографию продукта, добавляем плашку со скидкой, рассылаем всей аудитории. Быстро, дёшево – и одинаково для матери-домохозяйки с детьми и для одинокого студента.

Проблема в том, что покупатели выработали устойчивый иммунитет к обобщённым рекламным форматам. Взгляд скользит по шаблонному изображению, не задерживаясь: мозг распознаёт рекламу «для всех» и фильтрует её как фоновый шум. Когда же визуал попадает в личный контекст механизм восприятия меняется. Один и тот же кусок ветчины может быть утренним семейным теплом для одного, осознанным белковым перекусом для другого и атрибутом изысканного стола для третьего – и это не манипуляция, это уважение к разным жизненным контекстам.

Масштабировать персонализированный контент вручную невозможно экономически: даже при штате из нескольких десятков дизайнеров производство уникальных визуалов под каждый из 13 сегментов, для сотен акций и тысяч позиций каталога – задача с запредельной стоимостью. Значит, нужна автоматизация.

Генеративные модели к концу 2025: звёзды сошлись для ритейла

Если бы эта идея возникла два-три года назад, мы бы столкнулись с жёсткими техническими ограничениями. Стабильно генерировать персонализированные сцены под заданный профиль, встраивать в них конкретные объекты с сохранением визуальной идентичности и при этом выдерживать продуктовые метрики качества – всё это в условиях реальных рабочих процессов было задачей, посильной разве что крупным исследовательским лабораториям, но никак не продуктовой ML-команде внутри ритейл-компании. Конец 2025 года изменил расклад.

FLUX.2 – 32 миллиарда параметров в деле

В ноябре 2025 года компания Black Forest Labs выпустила FLUX.2 – flow-matching трансформер на 32 миллиарда параметров с полностью переработанным латентным пространством. Модель умеет создавать и редактировать изображения разрешением до 4 мегапикселей, принимать до десяти референсных снимков одновременно и поддерживать визуальную консистентность объекта – продукт на выходе остаётся собой вне зависимости от окружения. Физически корректные тени, освещение, отражения. Latency генерации – менее десяти секунд.

Qwen-Image-Edit – семантика встречает диффузию

Параллельно команда Alibaba Qwen выпустила Qwen-Image-Edit – 20-миллиардную модель на архитектуре MMDiT с нетривиальным подходом к вводу данных. Исходное изображение обрабатывается одновременно двумя ветками: Qwen2.5-VL отвечает за семантическое понимание сцены, VAE Encoder – за сохранение визуальных характеристик объекта. Это позволяет точечно менять фон, освещение, контекст, не трогая сам продукт.

Обе модели созданы с расчётом на реальные производственные процессы, а не на академические бенчмарки. Они поддерживают работу с несколькими референсами, замену элементов сцены, создание сложных композиций – с сохранением физически правдоподобного поведения света и материалов. Для продуктовых команд в ритейле это вполне конкретная вещь: автоматизация рутинной дизайнерской работы больше не предмет стратегических дискуссий на конференциях, а инженерная задача, решаемая силами небольшой ML-команды за разумный продуктовый цикл.

Оговоримся: рынок генеративных моделей для изображений в 2025–2026 не ограничивается двумя именами. Облачные решения от OpenAI и Google в ряде задач показывают сопоставимое или превосходящее качество – но ценой передачи данных во внешний контур, что в корпоративном ритейл-пайплайне сразу поднимает вопросы data governance. FLUX.2 и Qwen-Image-Edit выбраны как наиболее зрелые self-hosted альтернативы для деплоя на собственной инфраструктуре.

Что мы построили: архитектура MVP-сервиса

В основе сервиса три входных параметра: описание и фото товарной позиции, профиль целевого покупательского сегмента, опциональные креативные пожелания дизайнера. На выходе – промо-коллаж, где продукт органично вписан в жизненный контекст и визуальный антураж, точно настроенный под заданную аудиторию и характер самого продукта.

Пользователю не нужно формулировать промпт, подбирать визуальные архетипы, разбираться в настройках модели или прибегать к сторонним инструментам. Всё необходимое делается под капотом, дизайнер перестаёт быть узким местом в конвейере промо-контента и становится автором идей и креативным специалистом, а не исполнителем рутинных технических заданий.

Шаги пайплайна

  • Входные данные – фото и описание товарной позиции; текстовый профиль целевого покупательского сегмента (сформированный по результатам предшествующих CRM-исследований); опционально – вводные инструкции от дизайнера.

  • Автогенерация промпта – MagnitGPT, обученная на данных в контуре компании генеративная модель, в роли LLM-агента формирует детализированный текстовый промпт для диффузионной модели на основе профиля сегмента и описания товарной позиции: освещение, атмосферу, визуальные архетипы сцены и прочие параметры генерации.

  • Генерация через FLUX.2 – модель встраивает исходный объект в сгенерированную сцену, добавляя физически корректное освещение и тени; форма и текстура товара остаются неизменными.

Рис. 1. Архитектура MVP-сервиса PromoPersona – от входных данных до промо-коллажа. Слева: входные параметры (фото товара, описание, профиль сегмента, директивы дизайнера). В центре: блок генерации – LLM-агент (MagnitGPT) формирует промпт, FLUX.2 синтезирует сцену с latency < 10 секунд. Справа: интеграционный контур – REST API + асинхронная очередь, интеграция с PIM и CRM-платформой, дизайнерский интерфейс (следующая итерация).
Рис. 1. Архитектура MVP-сервиса PromoPersona – от входных данных до промо-коллажа. Слева: входные параметры (фото товара, описание, профиль сегмента, директивы дизайнера). В центре: блок генерации – LLM-агент (MagnitGPT) формирует промпт, FLUX.2 синтезирует сцену с latency < 10 секунд. Справа: интеграционный контур – REST API + асинхронная очередь, интеграция с PIM и CRM-платформой, дизайнерский интерфейс (следующая итерация).

Инфраструктура и производительность

Запуск диффузионных моделей класса 20–32B параметров требует соответствующего железа. Разработка и эксплуатация MVP велась на выделенной виртуальной машине с GPU-ускорителем серверного класса – достаточным для инференса моделей такого масштаба без деградации производительности. Ключевое требование к аппаратной платформе – достаточный объём видеопамяти для хранения полных FP16-весов FLUX.2 [dev] непосредственно в VRAM, без offloading на хост-память: это критически влияет на стабильность и предсказуемость latency.

Пайплайн выдаёт порядка 100–200 коллажей в час в синхронном режиме на одной GPU-ноде. При горизонтальном масштабировании – несколько GPU-нод с балансировщиком нагрузки – производительность линейно растёт и перекрывает потребности промо-кампаний любого масштаба. Всё взаимодействие с внешними системами – через REST API с асинхронной очередью, что обеспечивает бесшовную интеграцию в существующую ИТ-инфраструктуру.

Смотрим на результат: одна ветчина – три сегмента

Теория – это хорошо. Но давайте посмотрим, что получается на практике. Возьмём конкретный товар – ветчину – и запустим пайплайн для трёх покупательских сегментов. На вход сервиса подаётся стандартное каталожное изображение: продукт на нейтральном фоне, без контекста, без истории. Именно это – отправная точка для генерации всех трёх персонализированных коллажей.

Рис. 2. Исходное каталожное изображение и три персонализированных промо-коллажа, сгенерированных пайплайном для разных покупательских сегментов. Верхний ряд: исходник (нейтральный фон) и коллаж для сегмента «Ценители комфорта» – тёплая домашняя атмосфера со свечами и деревянными поверхностями. Нижний ряд: «VIP-покупатели» – изысканная сервировка в тёмных тонах; «ЗОЖ-активисты» – яркая сцена со свежими овощами и горчицей на деревянной доске. Во всех трёх результатах продукт сохраняет исходную форму, нарезку и текстуру – никакого искажения товарной позиции.

Рис. 2. Исходное каталожное изображение и три персонализированных промо-коллажа, сгенерированных пайплайном для разных покупательских сегментов. Верхний ряд: исходник (нейтральный фон) и коллаж для сегмента «Ценители комфорта» – тёплая домашняя атмосфера со свечами и деревянными поверхностями. Нижний ряд: «VIP-покупатели» – изысканная сервировка в тёмных тонах; «ЗОЖ-активисты» – яркая сцена со свежими овощами и горчицей на деревянной доске. Во всех трёх результатах продукт сохраняет исходную форму, нарезку и текстуру – никакого искажения товарной позиции.

Три сегмента – три визуальных нарратива

Для демонстрации возможностей пайплайна мы использовали три условных покупательских сегмента. Их названия и содержания намеренно отличаются от реальных сегментов из нашей CRM-базы. Каждый из трёх сегментов получил свой уникальный промо-коллаж – при том что исходное изображение продукта было одинаковым для всех.

Обратите внимание: во всех трёх результатах продукт сохраняет исходную форму, нарезку и текстуру – никакого искажения товарной позиции. При этом освещение, фон и эмоциональная тональность сцены кардинально различаются. Ни один из коллажей не собирался вручную – всё сгенерировано пайплайном от входного фото до готового результата.

Технические задачи MVP и как мы их решали

  • Сохранение визуальной идентичности продукта – Ключевое требование для ритейла – продукт в коллаже должен быть неотличим от каталожного изображения: та же форма, нарезка и текстура. FLUX.2 решает эту задачу через механизм IP-adapter и cross-attention с референсным изображением: объект «привязывается» к сгенерированной сцене, а не заменяется её артефактами.

  • Автоматический промпт-инжиниринг – Ручное составление промптов для каждого сегмента и каждой товарной позиции исключено по экономическим соображениям. MagnitGPT в роли LLM-агента получает на вход структурированный профиль сегмента и описание товара, а на выходе формирует детализированный промпт с указанием атмосферы, освещения, визуальных архетипов и стилевых параметров – без участия человека.

  • Физически корректное встраивание объекта – Одна из ключевых проблем предыдущих поколений моделей – «летающий» продукт в сцене: неправильные тени, неверное освещение, неестественные отражения. FLUX.2 генерирует физически правдоподобные тени и освещение непосредственно в процессе инференса, что избавляет от необходимости постобработки.

  • Latency < 10 секунд – Требование задано архитектурно: полные веса FLUX.2 [dev] держатся непосредственно в VRAM GPU-ускорителя без offloading на хост-память, что обеспечивает предсказуемое время генерации. Асинхронная очередь позволяет параллельно обрабатывать несколько запросов без блокировки клиентского потока.

  • Горизонтальное масштабирование – Архитектура сервиса с самого начала проектировалась под горизонтальное масштабирование. REST API + async queue позволяют добавлять GPU-ноды без изменения логики сервиса. Производительность на одной ноде масштабируется линейно при росте нагрузки.

От MVP к продуктовому решению

MVP зафиксировал ключевой результат: идея работает, технологический стек достаточно зрелый, а пайплайн устойчиво генерирует коллажи с сохранением визуальной идентичности продукта. Это достаточное основание для того, чтобы двигаться дальше – к полноценному продукту, встроенному в операционные процессы дизайн-команды и CRM-коммуникаций.

  • Дизайнерский интерфейс – веб-приложение с цельным рабочим пространством: загрузка фото и описания продукта, выбор сегмента, опциональная настройка параметров сцены, просмотр и одобрение результатов – всё в едином инструменте без переключения между сервисами.

  • API-интеграция с PIM-системой – автоматическое получение актуальных фотографий продукта и его метаданных; исключает ручную загрузку и устраняет риск работы с устаревшими материалами.

  • Интеграция с CRM-платформой – автоматическая подача одобренных коллажей в цепочки push-уведомлений, email-рассылок и таргетированной рекламы без ручного сопоставления «сегмент → визуал».

  • Расширение покрытия – переход с пилотных сегментов на полный профиль покупательской базы и весь каталог промо-категорий.

  • Brand safety – автоматическая верификация соответствия генераций корпоративному бренд-буку: цветовая палитра, стилистика, фильтрация недопустимых визуальных элементов.

  • Мониторинг качества в production – дашборды по метрикам QA-модуля, трекинг эффективности каждого коллажа в разрезе конверсионных показателей, автоматическая оптимизация стратегии на основе накопленных данных.

  • ML/DevOps-обвязка – версионирование пайплайнов, A/B-деплой и canary-выкатка новых версий моделей, сквозное логирование и трейсинг запросов.

  • Масштабирование инфраструктуры – переход от одной GPU-ноды к кластеру с автоскейлингом для покрытия пиковых нагрузок в период активных промо-кампаний.

Исследовательская повестка

Параллельно с продуктовым развитием ведём несколько исследовательских направлений.

  • Тестирование новых SOTA-подходов – как для задачи автогенерации коллажей, так и для итеративного редактирования и точечных правок уже одобренных результатов.

  • Multi-reference conditioned генерация – В текущем MVP сцена строится исключительно из текстового промпта: модель получает одно референсное изображение – фото товара – и словесные описания продукта и сегмента. Multi-reference меняет входной контракт принципиально: вместо одного изображения модель получает пакет референсов – фото продукта плюс заранее подобранные lifestyle-образы сегмента. FLUX.2 поддерживает до десяти референсов параллельно, обрабатывая каждый через отдельную ветку cross-attention с настраиваемыми весами влияния. Ожидаемый результат – дополнительный прирост визуальной релевантности за счёт более точного попадания в визуальный мир конкретного сегмента.

  • A/B-тестирование эффективности – Следующим шагом станет полноценная постановка статистических экспериментов: дизайн групп, выбор метрик (CTR, конверсия в акцепт оффера, CR в покупку), стратификация по сегментам и поведенческим признакам. Сейчас мы фиксируем технический MVP; 

  • Уточнение методики сегментации – Проработка количества сегментов, их гранулярности, признакового состава и текстовых описаний для LLM-агента – отдельная аналитическая задача, которая будет освещена в следующей публикации (повод подписаться).

Заключение

Мы начали с простого вопроса: можно ли автоматически создавать промо-коллажи, которые покупатель почувствует как созданные лично для него? MVP-сервис PromoPersona на базе FLUX.2 технически закрыл эту задачу. Один и тот же продукт получает три совершенно разных визуальных нарратива под три разных сегмента – и ни один из коллажей не собирался вручную.

С технической точки зрения момент исключительно благоприятный. Такие модели как FLUX.2 и Qwen-Image-Edit закрывают большинство болевых точек, которые делали подобные проекты сложными и долгими год-два назад. Физически корректное встраивание продукта в персонализированную сцену с сохранением его визуальной идентичности, автоматический промпт-инжиниринг, масштабируемый инференс на выделенной GPU-инфраструктуре – всё это уже работает в рамках MVP и готово к росту нагрузки.

Для ML-команды в ритейле это смена парадигмы: от «сделать один красивый баннер» к «дать каждому покупателю его собственный визуальный нарратив». Дизайнер при этом не теряет работу – он обретает суперспособность: создавать не один коллаж, а целую визуальную вселенную для разных аудиторий за время одного рабочего дня.

В следующей публикации расскажем подробнее о постановке A/B-тестов, методике формирования сегментов и аналитических деталях пайплайна – подписывайтесь на блог MAGNIT TECH

Автор: sergey_chekmenev

Источник