Нейроакварель. Тестируем разные ИИ-решения для создания эффекта живописи красками

Мой арт "Луч осени", доработанный в ИИ-приложении Prisma — Мой арт “**Луч осени** ^[1]“, доработанный в ИИ-приложении *Prisma*

Я цифровой фотохудожник. Я работаю в гибридном жанре между цифровой фотографией и цифровой живописью. С помощью различных фильтров и эффектов в растровом редакторе я отрисовываю сказочные сюжеты поверх собственных фото. Сейчас у меня есть собственный сайт ^[2] на базе ArtStation, страничка на фотохостинге Flickr ^[3], творческая страничка ВК ^[4] и профиль на DeviantArt ^[5].

Нейросети я обычно не использую – предпочитаю творить сам. Но недавно всё-таки у меня появилась задача, для которой мне потребовалась творческая коллаборация с каким-нибудь ИИ. И я решил испытать, какой лучше!

Постановка задачи. Дано/найти

Мои работы обычно выглядят просто как фото – только сделанные в сказочном или нереальном мире. В принципе, того я и добиваюсь. Но есть один минус – на конкурсах и выставках они тоже оцениваются как фото, несмотря на различие творческой философии и подхода к созданию сюжета. Это приводит к частым отказам и низким оценкам: жюри из числа фотографов важно остановленное мгновение, а не сотворённый мир.

Поэтому, хоть я и не планирую из-за этого кардинально менять стиль, я всё же задумался, как бы можно было вывести мои творения из мира фото и надёжно показать, что они – не фото. А самый лучший способ – вообще превратить их в другой вид изобразительного искусства, хотя бы визуально. Например, применить к ним эффект, имитирующий живопись красками. Даже в цифровом виде они в таком случае будут бросаться в глаза любому оргкомитету именно как цифроживопись, а не фото.

Более того, такая обработка облегчает корректную постеризацию изображения в специальных программах для создания картин по номерам – что открывает путь к ещё более радикальному изменению формы артов. Теоретически из них можно было бы создать картины по номерам (самому или с помощью компаний, выпускающих подобные раскраски) и раскрасить собственные арты вручную.

Применить эффект к фото сейчас можно двумя способами: с помощью моделей искусственного интеллекта ^[6] (ИИ), принимающих графический промпт, или традиционными способами в растровом графическом редакторе. В этой статье я протестирую несколько моделей ИИ в сравнении с традиционной методико�� – и попробую разобраться, какие лучше подходят для преобразования цифрового фото-арта в акварель (ну или в холст/масло).

Материалы и методы. Как и что я тестировал

В тестировании участвовали нейросети, ранее хорошо себя зарекомендовавшие в обработке изображений и специализирующиеся именно на ней. Универсальные сервисы типа ChatGPT из рассмотрения исключались – во-первых, именно по причине своей универсальности, во-вторых – потому, что мощности ChatGPT мне сейчас нужны для другого проекта (лингвистического – см. мои статьи ^[7] по компьютерной индоевропеистике). Так что для равновесия ограничился сервисами, используемыми в основном для создания изображений.

Важным критерием включения была способность нейросети принимать на вход графический промпт – поэтому из анализа был исключён, например, Kandinsky. Он просто не имеет принимать уже готовые изображения на обработку. В итоге в сравнении поучаствовали 4 ИИ-сервиса: Google Gemini (с прорывным графическим движком Nano Banana), Midjourney, “Шедеврум” и Prisma. Графический редактор GIMP участвовал в сравнении в качестве пятого – традиционного – метода.

В сервисах, управляемых с помощью текстового промпта, использовались простые запросы типа “превратить картинку в акварель” с явным указанием требуемого стиля, но с минимальной детализацией.

Каждый сервис оценивался по пятибалльной шкале в каждом их трёх критериев:

креативность – насколько сам ИИ-сервис добавляет что-то новое и насколько “творчески” он модифицирует изображение;
соответствие цели – насколько направленность модификации изображения соответствует желаниям стилизовать его под акварель;
управляемость – насколько пользователь может контролировать параметры применения эффека.

Я продемонстрирую эффекты на своих собственных артах. По возможности, будут использоваться версии одних и тех же артов, чтобы показать и разобрать различия. Вы сможете сравнить их с исходными версиями артов в моём профиле Flickr ^[8] – и решить, что вам больше нравится! Ссылки на исходные версии на Flickr также доступны в подписях к рисункам.

Результаты и обсуждение. Что из чего получилось

Начать хотелось бы с нейросети Google Gemini ^[9] – самой “хайповой” на момент выпуска статьи. Дело в том, что её графический движок Nano Banana позволяет находить недостающую информацию и генерировать правдоподобное изображение даже при отсутствии детальных указаний от пользователя. Ранее пользователи соцсети X/Twitter коллективно испытали его в генерации миниатюр городов ^[10], а для меня он создал реалистичную реконструкцию ^[11] исторического Иисуса (Рис. 1).

Рис. 1. Исторический Иисус по версии нейросети Google Gemini. Довольно правдоподобная реконструкция — **Рис. 1.** Исторический Иисус по версии нейросети Google Gemini. Довольно правдоподобная реконструкция

Но, как ни странно, в творческой задаче на превращение в акварель Gemini почти полностью проваливается, лишь слегка меняя микротекстуру изображения. Глобально оно остаётся почти неотличимо от оригинала (Рис. 2). С поиском информации и фактчекингом у сервиса всё хорошо, но для стилизации фото это явно не вариант. Списываем сразу.

Рис. 2. Мой арт "Огоньки летнего вечера", изменённый нейросетью Google Gemini. Разочаровывает... — **Рис. 2.** Мой арт “**Огоньки летнего вечера** ^[12]“, изменённый нейросетью *Google Gemini*. Разочаровывает…

Оценки Google Gemini/Nano Banana:

креативность: 1
соответствие цели: 1
управляемость: 1

Самый минимум.

До появления Gemini самым ходовым сервисом в мире для изображений был Midjourney ^[13] – поэтому он заслуженно становится вторым в нашей очереди на тест.

Midjourney наконец-то выдаёт требуемый стиль – его генерации смотрятся прямо как настоящие картины. Правда, с уличного вернисажа. Потому что их сюжет не только кардинально меняется по сравнению с моей задумкой – он становится более банальным.

Меня как художника порадовало, что настроение, цвета и тональность – то, что я и стараюсь нарисовать – нейросеть передаёт. Но сюжет она искажает слишком сильно. На рисунках появляются совы и котики, которых в оригинале не было (Рис. 3, Рис. 4). И это полбеды – в 50% случаев нейросеть вообще рисует лица людей. В то время как даже по моему профилю ^[8] на Flickr понятно, что людей я на своих артах не изображаю.

Рис. 3. Мой арт "Осенней дождливой ночью" в обработке под акварель – по версии Midjourney. Нейросеть вообще уверена, что мой сюжет был про сову?)) — **Рис. 3.** Мой арт “**Осенней дождливой ночью** ^[14]” в обработке под акварель – по версии Midjourney. Нейросеть вообще уверена, что мой сюжет был про сову?))

Рис. 4. Мой арт "Свет в ночи", отрисованный акварелью, по версии Midjourney. Котёнок милый, но есть нюанс... — **Рис. 4.** Мой арт “**Свет в ночи** ^[15]“, отрисованный акварелью, по версии Midjourney. Котёнок милый, но есть нюанс…

Почему так происходит? Как я уже писал в статье о переводе на праиндоевропейский ^[7], генеративный ИИ всё делает через… через статистику. Все его “творческие” функции – это лишь хитроумно завёрнутое статистическое предсказание. Он всегда выбирает статистически самое частое – а это и есть “банальное” в нашем обычном понимании! Так что банализация – неотъемлемая часть обработки готового художественного изображения с помощью ИИ. Midjourney в нашем сравнении просто оказался самым хрестоматийным примером генеративного ИИ, воспроизводя его характерные ошибки ^[16].

Оценки Midjourney:

креативность: 3
соответствие цели: 3
управляемость: 3

На “удовлетворительно” сработал, но не более.

“Шедеврум ^[17]” от Яндекса способен обрабатывать готовые изображения только с недавно появившейся функцией “Фильтрум”, которая, казалось бы, специально для этого и спроектирована. Но, к сожалению, попытка задать текстовый промпт для фильтрума вручную привела к тому же результату, что и в Midjourney. Нет, вру. Отличается количественно – животных вообще нет, а из цветочков и капель генерируются одни женские лица.

Но в “Шедевруме” есть коллекция фильтрумов, уже созданных другими пользователями – которые, по всей видимости, представляют собой не запомненные словесные промпты, а запомненные конфигурации преобразований, ранее удачно сработавшие на каком-то фото.

Таких фильтрумов в “Шедевруме” очень много, и “Акварельки” там как минимум две. Как раз их применение дало эффект, близкий к ожидаемому (Рис. 5, Рис. 6). Фото были преобразованы в акварельные абстракции, даже с элементами какой-то фантазии и ещё большей ирреальности.

Рис. 5. Арт "Огоньки летнего вечера", преобразованный фильтрумом "Акварелька" от Шедеврума — **Рис. 5.** Арт “**Огоньки летнего вечера** ^[12]“, преобразованный фильтрумом “Акварелька” от Шедеврума

Рис. 6. Арт "Осенней ��ождливой ночью" в обработке фильтрумом "Акварелька" от Шедеврума — **Рис. 6.** Арт “**Осенней дождливой ночью** ^[14]” в обработке фильтрумом “Акварелька” от Шедеврума

Благодаря большому выбору фильтрумов сервис показывает хорошую управляемость и удачное соотношение креативности и соответствия целям. Но несколько баллов придётся снять. Во-первых, сервис допускает только квадратный формат, как и Midjourney. И как он прикажет мне быть, например, с моим артом “Проснись, дорогая! ^[18]“, который я считаю центральным в своём творчестве ^[19]? Обрезка уродует его необратимо – так что это непосильная задача как для “Шедеврума”, так и для Midjourney. Думаю, минус балл к управляемости будет вполне заслужен.

А во-вторых, всё-таки доступные “акварельные” фильтрумы сильно перебарщивают с абстракцией на и так уже абстрактных артах. Я оставляю очень мало деталей, так что при ИИ-преобразовании с оставшимися надо работать бережно. А “Шедеврум” ведёт себя немножко как слон в посудной лавке, иногда превращая фото в набор пятен.

Банализация также присутствует – например, необычные цветы могут отобразиться как обычные листья, а обычные листья – как необычные цветы. Примеры можно посмотреть в моём профиле ^[20] “Шедеврума” – наведя указатель мыши на любой арт, можно увидеть слово “Оригинал”, клик на которое позволяет прозрачно сравнить генерацию с оригиналом. То есть с моим артом без ИИ.

Оценка “Шедеврума”:

креативность: 3
соответствие цели: 4
управляемость: 3

Многих ограничений “Шедеврума” лишено зарубежное приложение Prisma ^[21] – достаточно старое решение, появившееся ещё до бума языковых моделей. В нём присутствует большой набор эффектов, похожих на “фильтрумы”, но при этом у него более удачный баланс между креативностью и сохранением деталей (Рис. 7, 8, 9). И да – формат возможен любой. Это единственное приложение из испытанных ИИ-сервисов, которое хорошо справилось с артом “Проснись, дорогая!” (Рис. 7).

Рис. 7. Мой арт "Проснись, дорогая!" в обработке приложением Prisma — **Рис. 7.** Мой арт “**Проснись, дорогая!** ^[18]” в обработке приложением Prisma

Рис. 8. Мой арт "Морозная цветомузыка" в обработке приложением Prisma — **Рис. 8.** Мой арт “**Морозная цветомузыка** ^[22]” в обработке приложением Prisma

Рис. 9. Мой арт "Осенняя кленовая симфония" в исполнении нейро-приложения Prisma — **Рис. 9.** Мой арт “**Осенняя кленовая симфония** ^[23]” в исполнении нейро-приложения Prisma

Минус в том, что нет фильтра с названием “акварель” или аналогичным – подбирать приходится ad hoc. Кроме того, для наилучшей управляемости необходима платная подписка – а создатели Prisma так и не выкатили полноценную веб-версию. Мобильное приложение можно оплатить только через магазин приложений. В текущей ситуации, когда встроенные платёжные сервисы не работают в России, даже иностранные карты помогают слабо.

Оценка приложения Prisma:

креативность: 4
соответствие цели: 3
управляемость: 3

Выбирать эффект ad hoc приходится и в GIMP ^[24], где тоже нет фильтра с названием “Акварель”. Фильтр “Масляная краска” (Рис. 10) довольно скучен, особенно по сравнению с обработкой того же арта в Prisma (Рис. 8). А вот фильтр “Водяные пиксели” оказывается максимально похожим на акварель. Если сравнить Рис. 11 с Рис. 9, видно, что во многом его сюжетный эффект сопоставим с эффектом Prisma при значительном выигрыше в управляемости – параметры можно свободно регулировать. Главное – знать, как! Мне как опытному фотохудожнику кажется привлекательнее более гибкое решение. Но оно подойдёт не каждому пользователю: слишком много надо знать и уметь.

Рис. 10. Арт "Морозная цветомузыка", преобразованный фильтром "Масляная краска" — **Рис. 10.** Арт “**Морозная цветомузыка** ^[25]“, преобразованный фильтром “Масляная краска”

Рис. 11. Мой арт "Осенняя кленовая симфония", преобразованный фильтром "Водяные пиксели" — **Рис. 11.** Мой арт “**Осенняя кленовая симфония** ^[23]“, преобразованный фильтром “Водяные пиксели”

“Водяные пиксели” я однажды внедрил в свой арт при его создании – это арт “Объятия осени ^[26]” (Рис. 12), целиком созданный в таком “акварельном” стиле. Может быть, в дальнейшем будут ещё арты подобного типа – пока я активно исследую “акварельную” тему и в самом творчестве, и в ремейках.

Рис. 12. Мой арт "Объятия осени", в процессе создания которого фильтр "Водяные пиксели" был применён by design — **Рис. 12.** Мой арт “**Объятия осени** ^[26]“, в процессе создания которого фильтр “Водяные пиксели” был применён *by design*

Креативность у фильтра минимальна – ведь его эффект жётско детерминирован. Но даже для меня он предсказуем не до конца, и я бываю им приятно удивлён. Так что всё-таки не 1, а 2 балла по критерию креативности.

Если брать за основу фильтр “Водяные пиксели”, то оценка GIMP будет следующая:

креативность: 2
соответствие цели: 5
управляемость: 5

В итоге для меня по суммарному баллу победил бы GIMP – он набрал 12 баллов. Но мы тут ИИ тестируем, не так ли? В спину волку Уилберу, маскоту GIMP, дышат “Шедеврум” и Prisma, которые оба набрали по 10 баллов и делят между собой 1 место. За ними с небольшим отставанием идёт Midjourney, уступив всего балл. Gemini, который в этой задаче неожиданно промахнулся, плетётся в хвосте. Но помните, что он хорош для других задач!

Заключение

То, что фильтрумы “Шедеврума” и Prisma набрали одинаковое количество баллов, неудивительно. Эти приложения построены на разных решениях. Но они занимают одну нишу и могут рассматриваться как функциональные аналоги. Их результат сопоставим с обработкой в графическом редакторе, хоть и уступает ей – так что могу их рекомендовать для задач стилизации.

Их общей чертой является то, что в предложенной реализации пользователь не задействует текстовый промпт. Это наводит на мысль, что языковые модели и стилизация изображений не очень совместимы. Более выигрышными оказываются старые решения, типа Prisma. Это похоже на кейс DeepL ^[27] – среди переводчиков его уважают больше всего (и я сам использую в переводческой работе именно его). А по архитектуре это старая добрая свёрточная нейронная сеть, а не новомодный трансформер.

И напоследок самое важное. Приведённый анализ ни в коем случае не означает, что “Шедеврум” лучше Gemini. Мало того, что это субъективный анализ цифрового художника – так это ещё и тестирование моделей на нестандартной и нетипичной для них задаче. Это та область, где ИИ регулярно “проваливается” – просто разные модели делают это по-разному.

Это было не глобальное сравнение моделей – а скорее сравнение их слабых мест в художественном стресс-тесте. Его люди-то не все выдерживают, что тут говорить про ИИ! Какие решения лучше использовать? Это зависит от вашей задачи, а не от оценки на Хабре. Какой бы ИИ вы не взяли себе в помощники – думать всё равно придётся своей головой.

Автор: GeorgyKurakin

Источник ^[28]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/24393

URLs in this post:

[1] Луч осени: https://flic.kr/p/2qh5P5v

[2] собственный сайт: https://georgykurakin.artstation.com/

[3] страничка на фотохостинге Flickr: https://flickr.com/photos/georgykurakin/

[4] творческая страничка ВК: https://vk.com/fairytalephotos

[5] DeviantArt: https://www.deviantart.com/georgykurakin

[6] интеллекта: http://www.braintools.ru/article/7605

[7] мои статьи: https://habr.com/ru/articles/967784/

[8] в моём профиле Flickr: https://www.flickr.com/photos/georgykurakin/

[9] Google Gemini: https://en.wikipedia.org/wiki/Google_Gemini

[10] генерации миниатюр городов: https://x.com/KurakinEgor/status/1996558176146350112

[11] реалистичную реконструкцию: https://vk.com/wall136741977_55018

[12] Огоньки летнего вечера: https://flic.kr/p/2kzuDQn

[13] Midjourney: https://en.wikipedia.org/wiki/Midjourney

[14] Осенней дождливой ночью: https://flic.kr/p/2mJiJcP

[15] Свет в ночи: https://flic.kr/p/2ncdaZt

[16] ошибки: http://www.braintools.ru/article/4192

[17] Шедеврум: https://ru.wikipedia.org/wiki/%D0%A8%D0%B5%D0%B4%D0%B5%D0%B2%D1%80%D1%83%D0%BC

[18] Проснись, дорогая!: https://flic.kr/p/2kyBpid

[19] творчестве: http://www.braintools.ru/creation

[20] моём профиле: https://shedevrum.ai/profile/jzuq9rbk76qa3bpqqwaccnzy5g/

[21] Prisma: https://en.wikipedia.org/wiki/Prisma_(app)

[22] Морозная цветомузыка: https://flic.kr/p/2qWcZrh

[23] Осенняя кленовая симфония: https://flic.kr/p/2qVht2D

[24] GIMP: https://en.wikipedia.org/wiki/GIMP

[25] Морозная цветомузыка: https://ttps://flic.kr/p/2qWcZrh

[26] Объятия осени: https://flic.kr/p/2qUEV8b

[27] DeepL: https://en.wikipedia.org/wiki/DeepL_Translator

[28] Источник: https://habr.com/ru/articles/984186/?utm_source=habrahabr&utm_medium=rss&utm_campaign=984186

Нажмите здесь для печати.