- BrainTools - https://www.braintools.ru -
Я цифровой фотохудожник. Я работаю в гибридном жанре между цифровой фотографией и цифровой живописью. С помощью различных фильтров и эффектов в растровом редакторе я отрисовываю сказочные сюжеты поверх собственных фото. Сейчас у меня есть собственный сайт [2] на базе ArtStation, страничка на фотохостинге Flickr [3], творческая страничка ВК [4] и профиль на DeviantArt [5].
Нейросети я обычно не использую – предпочитаю творить сам. Но недавно всё-таки у меня появилась задача, для которой мне потребовалась творческая коллаборация с каким-нибудь ИИ. И я решил испытать, какой лучше!
Мои работы обычно выглядят просто как фото – только сделанные в сказочном или нереальном мире. В принципе, того я и добиваюсь. Но есть один минус – на конкурсах и выставках они тоже оцениваются как фото, несмотря на различие творческой философии и подхода к созданию сюжета. Это приводит к частым отказам и низким оценкам: жюри из числа фотографов важно остановленное мгновение, а не сотворённый мир.
Поэтому, хоть я и не планирую из-за этого кардинально менять стиль, я всё же задумался, как бы можно было вывести мои творения из мира фото и надёжно показать, что они – не фото. А самый лучший способ – вообще превратить их в другой вид изобразительного искусства, хотя бы визуально. Например, применить к ним эффект, имитирующий живопись красками. Даже в цифровом виде они в таком случае будут бросаться в глаза любому оргкомитету именно как цифроживопись, а не фото.
Более того, такая обработка облегчает корректную постеризацию изображения в специальных программах для создания картин по номерам – что открывает путь к ещё более радикальному изменению формы артов. Теоретически из них можно было бы создать картины по номерам (самому или с помощью компаний, выпускающих подобные раскраски) и раскрасить собственные арты вручную.
Применить эффект к фото сейчас можно двумя способами: с помощью моделей искусственного интеллекта [6] (ИИ), принимающих графический промпт, или традиционными способами в растровом графическом редакторе. В этой статье я протестирую несколько моделей ИИ в сравнении с традиционной методико�� – и попробую разобраться, какие лучше подходят для преобразования цифрового фото-арта в акварель (ну или в холст/масло).
В тестировании участвовали нейросети, ранее хорошо себя зарекомендовавшие в обработке изображений и специализирующиеся именно на ней. Универсальные сервисы типа ChatGPT из рассмотрения исключались – во-первых, именно по причине своей универсальности, во-вторых – потому, что мощности ChatGPT мне сейчас нужны для другого проекта (лингвистического – см. мои статьи [7] по компьютерной индоевропеистике). Так что для равновесия ограничился сервисами, используемыми в основном для создания изображений.
Важным критерием включения была способность нейросети принимать на вход графический промпт – поэтому из анализа был исключён, например, Kandinsky. Он просто не имеет принимать уже готовые изображения на обработку. В итоге в сравнении поучаствовали 4 ИИ-сервиса: Google Gemini (с прорывным графическим движком Nano Banana), Midjourney, “Шедеврум” и Prisma. Графический редактор GIMP участвовал в сравнении в качестве пятого – традиционного – метода.
В сервисах, управляемых с помощью текстового промпта, использовались простые запросы типа “превратить картинку в акварель” с явным указанием требуемого стиля, но с минимальной детализацией.
Каждый сервис оценивался по пятибалльной шкале в каждом их трёх критериев:
креативность – насколько сам ИИ-сервис добавляет что-то новое и насколько “творчески” он модифицирует изображение;
соответствие цели – насколько направленность модификации изображения соответствует желаниям стилизовать его под акварель;
управляемость – насколько пользователь может контролировать параметры применения эффека.
Я продемонстрирую эффекты на своих собственных артах. По возможности, будут использоваться версии одних и тех же артов, чтобы показать и разобрать различия. Вы сможете сравнить их с исходными версиями артов в моём профиле Flickr [8] – и решить, что вам больше нравится! Ссылки на исходные версии на Flickr также доступны в подписях к рисункам.
Начать хотелось бы с нейросети Google Gemini [9] – самой “хайповой” на момент выпуска статьи. Дело в том, что её графический движок Nano Banana позволяет находить недостающую информацию и генерировать правдоподобное изображение даже при отсутствии детальных указаний от пользователя. Ранее пользователи соцсети X/Twitter коллективно испытали его в генерации миниатюр городов [10], а для меня он создал реалистичную реконструкцию [11] исторического Иисуса (Рис. 1).
Но, как ни странно, в творческой задаче на превращение в акварель Gemini почти полностью проваливается, лишь слегка меняя микротекстуру изображения. Глобально оно остаётся почти неотличимо от оригинала (Рис. 2). С поиском информации и фактчекингом у сервиса всё хорошо, но для стилизации фото это явно не вариант. Списываем сразу.
Оценки Google Gemini/Nano Banana:
креативность: 1
соответствие цели: 1
управляемость: 1
Самый минимум.
До появления Gemini самым ходовым сервисом в мире для изображений был Midjourney [13] – поэтому он заслуженно становится вторым в нашей очереди на тест.
Midjourney наконец-то выдаёт требуемый стиль – его генерации смотрятся прямо как настоящие картины. Правда, с уличного вернисажа. Потому что их сюжет не только кардинально меняется по сравнению с моей задумкой – он становится более банальным.
Меня как художника порадовало, что настроение, цвета и тональность – то, что я и стараюсь нарисовать – нейросеть передаёт. Но сюжет она искажает слишком сильно. На рисунках появляются совы и котики, которых в оригинале не было (Рис. 3, Рис. 4). И это полбеды – в 50% случаев нейросеть вообще рисует лица людей. В то время как даже по моему профилю [8] на Flickr понятно, что людей я на своих артах не изображаю.
Почему так происходит? Как я уже писал в статье о переводе на праиндоевропейский [7], генеративный ИИ всё делает через… через статистику. Все его “творческие” функции – это лишь хитроумно завёрнутое статистическое предсказание. Он всегда выбирает статистически самое частое – а это и есть “банальное” в нашем обычном понимании! Так что банализация – неотъемлемая часть обработки готового художественного изображения с помощью ИИ. Midjourney в нашем сравнении просто оказался самым хрестоматийным примером генеративного ИИ, воспроизводя его характерные ошибки [16].
Оценки Midjourney:
креативность: 3
соответствие цели: 3
управляемость: 3
На “удовлетворительно” сработал, но не более.
“Шедеврум [17]” от Яндекса способен обрабатывать готовые изображения только с недавно появившейся функцией “Фильтрум”, которая, казалось бы, специально для этого и спроектирована. Но, к сожалению, попытка задать текстовый промпт для фильтрума вручную привела к тому же результату, что и в Midjourney. Нет, вру. Отличается количественно – животных вообще нет, а из цветочков и капель генерируются одни женские лица.
Но в “Шедевруме” есть коллекция фильтрумов, уже созданных другими пользователями – которые, по всей видимости, представляют собой не запомненные словесные промпты, а запомненные конфигурации преобразований, ранее удачно сработавшие на каком-то фото.
Таких фильтрумов в “Шедевруме” очень много, и “Акварельки” там как минимум две. Как раз их применение дало эффект, близкий к ожидаемому (Рис. 5, Рис. 6). Фото были преобразованы в акварельные абстракции, даже с элементами какой-то фантазии и ещё большей ирреальности.
Благодаря большому выбору фильтрумов сервис показывает хорошую управляемость и удачное соотношение креативности и соответствия целям. Но несколько баллов придётся снять. Во-первых, сервис допускает только квадратный формат, как и Midjourney. И как он прикажет мне быть, например, с моим артом “Проснись, дорогая! [18]“, который я считаю центральным в своём творчестве [19]? Обрезка уродует его необратимо – так что это непосильная задача как для “Шедеврума”, так и для Midjourney. Думаю, минус балл к управляемости будет вполне заслужен.
А во-вторых, всё-таки доступные “акварельные” фильтрумы сильно перебарщивают с абстракцией на и так уже абстрактных артах. Я оставляю очень мало деталей, так что при ИИ-преобразовании с оставшимися надо работать бережно. А “Шедеврум” ведёт себя немножко как слон в посудной лавке, иногда превращая фото в набор пятен.
Банализация также присутствует – например, необычные цветы могут отобразиться как обычные листья, а обычные листья – как необычные цветы. Примеры можно посмотреть в моём профиле [20] “Шедеврума” – наведя указатель мыши на любой арт, можно увидеть слово “Оригинал”, клик на которое позволяет прозрачно сравнить генерацию с оригиналом. То есть с моим артом без ИИ.
Оценка “Шедеврума”:
креативность: 3
соответствие цели: 4
управляемость: 3
Многих ограничений “Шедеврума” лишено зарубежное приложение Prisma [21] – достаточно старое решение, появившееся ещё до бума языковых моделей. В нём присутствует большой набор эффектов, похожих на “фильтрумы”, но при этом у него более удачный баланс между креативностью и сохранением деталей (Рис. 7, 8, 9). И да – формат возможен любой. Это единственное приложение из испытанных ИИ-сервисов, которое хорошо справилось с артом “Проснись, дорогая!” (Рис. 7).
Минус в том, что нет фильтра с названием “акварель” или аналогичным – подбирать приходится ad hoc. Кроме того, для наилучшей управляемости необходима платная подписка – а создатели Prisma так и не выкатили полноценную веб-версию. Мобильное приложение можно оплатить только через магазин приложений. В текущей ситуации, когда встроенные платёжные сервисы не работают в России, даже иностранные карты помогают слабо.
Оценка приложения Prisma:
креативность: 4
соответствие цели: 3
управляемость: 3
Выбирать эффект ad hoc приходится и в GIMP [24], где тоже нет фильтра с названием “Акварель”. Фильтр “Масляная краска” (Рис. 10) довольно скучен, особенно по сравнению с обработкой того же арта в Prisma (Рис. 8). А вот фильтр “Водяные пиксели” оказывается максимально похожим на акварель. Если сравнить Рис. 11 с Рис. 9, видно, что во многом его сюжетный эффект сопоставим с эффектом Prisma при значительном выигрыше в управляемости – параметры можно свободно регулировать. Главное – знать, как! Мне как опытному фотохудожнику кажется привлекательнее более гибкое решение. Но оно подойдёт не каждому пользователю: слишком много надо знать и уметь.
“Водяные пиксели” я однажды внедрил в свой арт при его создании – это арт “Объятия осени [26]” (Рис. 12), целиком созданный в таком “акварельном” стиле. Может быть, в дальнейшем будут ещё арты подобного типа – пока я активно исследую “акварельную” тему и в самом творчестве, и в ремейках.
Креативность у фильтра минимальна – ведь его эффект жётско детерминирован. Но даже для меня он предсказуем не до конца, и я бываю им приятно удивлён. Так что всё-таки не 1, а 2 балла по критерию креативности.
Если брать за основу фильтр “Водяные пиксели”, то оценка GIMP будет следующая:
креативность: 2
соответствие цели: 5
управляемость: 5
В итоге для меня по суммарному баллу победил бы GIMP – он набрал 12 баллов. Но мы тут ИИ тестируем, не так ли? В спину волку Уилберу, маскоту GIMP, дышат “Шедеврум” и Prisma, которые оба набрали по 10 баллов и делят между собой 1 место. За ними с небольшим отставанием идёт Midjourney, уступив всего балл. Gemini, который в этой задаче неожиданно промахнулся, плетётся в хвосте. Но помните, что он хорош для других задач!
То, что фильтрумы “Шедеврума” и Prisma набрали одинаковое количество баллов, неудивительно. Эти приложения построены на разных решениях. Но они занимают одну нишу и могут рассматриваться как функциональные аналоги. Их результат сопоставим с обработкой в графическом редакторе, хоть и уступает ей – так что могу их рекомендовать для задач стилизации.
Их общей чертой является то, что в предложенной реализации пользователь не задействует текстовый промпт. Это наводит на мысль, что языковые модели и стилизация изображений не очень совместимы. Более выигрышными оказываются старые решения, типа Prisma. Это похоже на кейс DeepL [27] – среди переводчиков его уважают больше всего (и я сам использую в переводческой работе именно его). А по архитектуре это старая добрая свёрточная нейронная сеть, а не новомодный трансформер.
И напоследок самое важное. Приведённый анализ ни в коем случае не означает, что “Шедеврум” лучше Gemini. Мало того, что это субъективный анализ цифрового художника – так это ещё и тестирование моделей на нестандартной и нетипичной для них задаче. Это та область, где ИИ регулярно “проваливается” – просто разные модели делают это по-разному.
Это было не глобальное сравнение моделей – а скорее сравнение их слабых мест в художественном стресс-тесте. Его люди-то не все выдерживают, что тут говорить про ИИ! Какие решения лучше использовать? Это зависит от вашей задачи, а не от оценки на Хабре. Какой бы ИИ вы не взяли себе в помощники – думать всё равно придётся своей головой.
Автор: GeorgyKurakin
Источник [28]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/24393
URLs in this post:
[1] Луч осени: https://flic.kr/p/2qh5P5v
[2] собственный сайт: https://georgykurakin.artstation.com/
[3] страничка на фотохостинге Flickr: https://flickr.com/photos/georgykurakin/
[4] творческая страничка ВК: https://vk.com/fairytalephotos
[5] DeviantArt: https://www.deviantart.com/georgykurakin
[6] интеллекта: http://www.braintools.ru/article/7605
[7] мои статьи: https://habr.com/ru/articles/967784/
[8] в моём профиле Flickr: https://www.flickr.com/photos/georgykurakin/
[9] Google Gemini: https://en.wikipedia.org/wiki/Google_Gemini
[10] генерации миниатюр городов: https://x.com/KurakinEgor/status/1996558176146350112
[11] реалистичную реконструкцию: https://vk.com/wall136741977_55018
[12] Огоньки летнего вечера: https://flic.kr/p/2kzuDQn
[13] Midjourney: https://en.wikipedia.org/wiki/Midjourney
[14] Осенней дождливой ночью: https://flic.kr/p/2mJiJcP
[15] Свет в ночи: https://flic.kr/p/2ncdaZt
[16] ошибки: http://www.braintools.ru/article/4192
[17] Шедеврум: https://ru.wikipedia.org/wiki/%D0%A8%D0%B5%D0%B4%D0%B5%D0%B2%D1%80%D1%83%D0%BC
[18] Проснись, дорогая!: https://flic.kr/p/2kyBpid
[19] творчестве: http://www.braintools.ru/creation
[20] моём профиле: https://shedevrum.ai/profile/jzuq9rbk76qa3bpqqwaccnzy5g/
[21] Prisma: https://en.wikipedia.org/wiki/Prisma_(app)
[22] Морозная цветомузыка: https://flic.kr/p/2qWcZrh
[23] Осенняя кленовая симфония: https://flic.kr/p/2qVht2D
[24] GIMP: https://en.wikipedia.org/wiki/GIMP
[25] Морозная цветомузыка: https://ttps://flic.kr/p/2qWcZrh
[26] Объятия осени: https://flic.kr/p/2qUEV8b
[27] DeepL: https://en.wikipedia.org/wiki/DeepL_Translator
[28] Источник: https://habr.com/ru/articles/984186/?utm_source=habrahabr&utm_medium=rss&utm_campaign=984186
Нажмите здесь для печати.