Почему нельзя просто взять и сгенерировать идеальную иллюстрацию. llm.. llm. nano banana.. llm. nano banana. генерация изображений.. llm. nano banana. генерация изображений. искусственный интеллект.. llm. nano banana. генерация изображений. искусственный интеллект. контент.. llm. nano banana. генерация изображений. искусственный интеллект. контент. Контент и копирайтинг.

Графические нейронки подарили редакторам сайтов, телеграм-каналов и прочим вебмастерам хорошую возможность – создать иллюстрации по текстовому описанию. Текст есть, ИИ-генератор есть, в чем же проблема?

Проблема не столько в том, что иллюстрация может не подойти к материалу или к стилю сайта. Проблема в том, что ИИ-модели, даже самые мощные, не так-то просто заставить креативить. То есть, выдавать что-то небанальное и интересное.

Особенно если вы не готовы сформулировать максимально точно, что хотите получить.

Возьмем для примера вполне реальный кейс – у вас есть тематический сайт или канал, где выходит определенное количество публикаций в день, и есть задача – добавлять к каждой публикации картинку. 

От иллюстрации не требуется быть шедевром, но она должна:

  • более-менее соответствовать тексту материала;

  • иллюстрировать содержание или как-то обыгрывать его;

  • сохранять преемственность с другими картинками – это может быть одна общая концепция, может быть фирменный стиль или цвет;

  • не быть нейрослопом – ну, то есть, у читателя как минимум не должно возникать желание вставить себе миксер в глаза, в идеале – чтобы картинку хотелось разглядывать;

  • создаваться быстро – ясно что не моментально, но у вас нет 30 минут на выписывание промпта для каждой картинки.

Если вы постите 1 статью в неделю, то можно перепробовать с десяток вариантов и выбрать самый нормальный. Но что, если у вас контент-план на 10-20 материалов в день?

Столкнувшись с этой задачей, я подошел к делу, как мне казалось, основательно.

Схема контент-генерации была примерно такой:

  • нужен один универсальный шаблон промпта, по которому ИИ будет генерировать текстовый промпт для генерации картинки;

  • для каждой иллюстрации к этому шаблону добавляется фактура: либо текст нашего материала, либо ссылка на первоисточник (если рерайт);

  • полученный промежуточный промпт скармливается любой текстовой/универсальной LLM – той, которая больше нравится или по опыту справляется лучше с этой задачей;

  • полученный на выходе текстовый промпт для генерации изображения – правильно структурированный, с детально прописанным стилем и техническими параметрами, плюс его при желании можно еще подправить руками;

  • этот текстовый промпт отдаем подходящей графической нейронке – и получаем готовую иллюстрацию.

В теории, все должно работать. Мы знаем, что графическая нейросеть заточена изображать то, что написано в промпте. У нее значительно меньше контекстное окно и в целом более скромные навыки ризонинга. Поэтому на промежуточном этапе мы отдаем сложную вычислительную задачу мощной текстовой LLM.

То есть, большая мощная LLM на все свои 20-50-100 миллиардов параметров придумывает нам сюжет картинки, детально его прописывает, учитывает все требования по стилю и ограничения. А потом глубоко специализированная графическая модель рисует картинку по этому заданию.

Первые тесты, тогда еще с Nano Banana 1, показали неплохие (по тем временам) результаты:

Что получилось
Это была новость о том, как дроны с ИИ помогают выращивать рис

Это была новость о том, как дроны с ИИ помогают выращивать рис
Илон Маск делает Grok 2.5 опенсорсным

Илон Маск делает Grok 2.5 опенсорсным

В итоге я начал использовать этот алгоритм на постоянной основе – лишь периодически что-то подправлял в универсальном шаблоне промпта. Ну и имел по одному разному шаблону на каждый проект.

Но со временем результат перестал радовать. По основным проектам мне было нужно, чтобы картинки были забавными и слегка саркастичными. Я усиливал и усиливал промпт увеличением количества слова sarcastic в разных вариантах, менял структуру, но сарказма не прибавлялось совсем.

Проблема была в том, что сюжет картинки хоть и формально коррелировал с содержанием материала, с первого взгляда связь было уловить сложно. Чтобы увидеть сарказм, нужно было внимательно прочитать текст (дважды), а потом внимательно рассмотреть картинку. И даже тогда смысл был, ну прямо скажем, не очевидным.

Для начала я перепробовал практически все современные LLM для генерации текстового промпта. В итоге больше всего понравился DeepSeek для «ироничных» иллюстраций в псевдо-реалистичном стиле, и Gemini 3.1 Pro для картинок в техно-стиле. GPT-5.4 и Claude Sonnet 4.6 почему-то справлялись чуть похуже, как и Sonar от Perplexity.

Переход на другие графические нейронки тоже не помог. Например, на Nano Banana Pro/2 привычный алгоритм в половине генераций начал выдавать ошибку (как я понял, модель сильно «задушили» по части изображения реальных людей и брендов). А стиль стал сильно прыгать от мультяшного к гиперреалистичному. Так что промпты с участием реальных людей приходится отдавать GPT-Image, хотя и она далеко не идеальна.

Примерно тогда я наткнулся на Хабре на статью «Это вам не шутки: как я пыталась отучить LLM петросянить»

Тогда пазл и сложился окончательно: если LLM еще как-то может определить наличие сарказма в готовом материале (вычислив его по паттернам саркастических материалов, на которых обучалась), то пройти этот путь в обратном направлении – уже нет. Поэтому научить нейронку шутить на автомате – задача практически невыполнимая.

Как я в итоге вышел из ситуации: для креатива подключил человеческий мозг, оставив за LLM лишь додумывание деталей и техническую работу.

На практике это означает, что кроме исходного шаблона я каждый раз дописываю руками в 1-2 предложения общую идею картинки. 

К примеру, у нас есть новость о том, что Luma Labs открывает доступ по API к модели Uni-1.1. Как это описать словами? Ну, предположим: «робот-художник, к которому по USB-кабелю можно подключить смартфон». Создаем промпт, по промпту создаем картинку:

Не идеально, и в первом варианте на переднем плане была еще одна рука с телефоном

Не идеально, и в первом варианте на переднем плане была еще одна рука с телефоном

Или новость про новую голосовую модель Thinking Machines Lab от Миры Мурати. Пусть будет «в стиле кадров из фильмов про шпионов и спецслужбы времен Холодной войны. Робот сидит на прослушке в наушниках и делает записи в журнале»:

Издержки человеческого интеллекта - ИИ в основном ассоциируется с роботам

Издержки человеческого интеллекта – ИИ в основном ассоциируется с роботам

Важно, что LLM получает не только одно это предложение с сюжетом картинки, но и весь исходный текст. Вся фактура в итоге учитывается в деталях картинки. Например, мне важно, чтобы в картинке был один цветовой акцент – DeepSeek прописывает, в чем именно он должен выражаться.

Но вообще, это все очень далеко от идеала. Во-первых, не всегда есть идеи, а во-вторых, далеко не всегда нейронка способна эту идею изобразить корректно. Но в целом процент иллюстраций, которые можно принять с первого раза, достаточно большой. Точно выше, чем если творчеством занимается только ИИ.

Остается лишь надеяться, что следующие версии LLM смогут в реверс-инжиниринг человеческого юмора, и нам не придется выдумывать все эти костыли.

Автор: nenkre

Источник