Тест-драйв Nano Banana (Gemini 2.5 Flash Image): новый фотошоп и революция в редактировании изображений от Google. google.. google. llm.. google. llm. генерация изображений.. google. llm. генерация изображений. Дизайн.. google. llm. генерация изображений. Дизайн. диффузия.. google. llm. генерация изображений. Дизайн. диффузия. искусственный интеллект.. google. llm. генерация изображений. Дизайн. диффузия. искусственный интеллект. картинки.. google. llm. генерация изображений. Дизайн. диффузия. искусственный интеллект. картинки. Машинное обучение.
Тест-драйв Nano Banana (Gemini 2.5 Flash Image): новый фотошоп и революция в редактировании изображений от Google - 1

Вчера вышла модель Gemini 2.5 Flash Image (промо название Nano Banana), которая, возможно, изменит мир работы с изображениями так, как это сделал своим появлением фотошоп. В посте — много классных экспериментов на все виды редактирования картинок, посмотрим с чем моделька справляется хорошо, а с чем не очень.

В заголовке написано «революция», «новый фотошоп» — это, наверное, все же преувеличение. Или нет. Штука очень крутая, залипал с ней до самого утра.

Давайте смотреть.

Для начала быстрый пример, попробуем из номера с видом на море сделать номер с видом на Гонконг, а потом и на Москву.

Просто вау

Просто вау

Новая эра генеративного редактирования по запросу

Генерация картинок — это то, к чему большинство людей в индустрии уже привыкло. Большинство сервисов уже давно не рисует 6 пальцев и излечило детские проблемы первых генераций. Просто генерациями уже никого не удивишь, она отличного качества. Перенос стиля (тот самый взорвавший интернет тренд на картинки в стиле миядзаки) — это, фактически, тоже именно генерация детально описанной картинки на вход.

Но часто нам нужна не просто генерация, а редактирование. Когда нужно отредактировать именно вот это на этой фотографии и сохранить на ней все остальное. Здесь все сложнее.

Для начала два термина: outpainting и inpainting. Первый — расширение границ, когда у нас есть готовая картинка, а дальше дорисовывается все остальное вокруг. Второй — это редактирование самой картинки, например, мы пишем «добавь на фото собаку» и появляется собака.

Outpainting освоили довольно быстро — DALL-E 2 и Stable Diffusion умели это уже в 2022 году, а сейчас это есть во всех платных сервисах от Ideogram до Midjourney. Логика работы: понять картинку, додумать продолжение и сгенерировать его.

Inpainting — намного сложнее. Классическая диффузионная архитектура работает через постепенное удаление шума из случайного изображения, что делает точечное редактирование конкретных областей при сохранении всего остального контекста крайне сложной задачей. Нужно одновременно сохранять исходную фотографию и делать только целевое действие с ней. Это очень сложно.

Но у Nano Banana, кажется, получилось еще выше задрать планку. Конечно, есть куча огрехов и проблем, но, честно — это по настоящему впечатляет. Я покажу примеры, и не на всех из них все идеально. Где-то просто вау эффект, где-то совсем нет. И здесь важно не то, что такая модель вышла, а то что ее выход запустил большую гонку технологий, которая уже началась и которая очень сильно изменит то, как мы работаем с изображениями и фотографиями.

Ни слова больше, примеры. Это не черри-пики, почти все — сразу с одного несложного промпта, но на картинках для наглядности он упрощен до целевого действия.

Девушка на пляже

Тест-драйв Nano Banana (Gemini 2.5 Flash Image): новый фотошоп и революция в редактировании изображений от Google - 3
Тест-драйв Nano Banana (Gemini 2.5 Flash Image): новый фотошоп и революция в редактировании изображений от Google - 4
Тест-драйв Nano Banana (Gemini 2.5 Flash Image): новый фотошоп и революция в редактировании изображений от Google - 5
Тест-драйв Nano Banana (Gemini 2.5 Flash Image): новый фотошоп и революция в редактировании изображений от Google - 6

И самая киллер-фича — создание каталогов любого предмета на фото, это просто вау. Видимо, это будет основным направления для коммерческого использования. Супер круто.

Тест-драйв Nano Banana (Gemini 2.5 Flash Image): новый фотошоп и революция в редактировании изображений от Google - 7

Но в процессе не все шло гладко, к слову.

Тест-драйв Nano Banana (Gemini 2.5 Flash Image): новый фотошоп и революция в редактировании изображений от Google - 8

Fashion дрова

Тест-драйв Nano Banana (Gemini 2.5 Flash Image): новый фотошоп и революция в редактировании изображений от Google - 9

И давайте их вручим девушке в купальнике! Купальник с первого раза не получился, сработал цензор.

Тест-драйв Nano Banana (Gemini 2.5 Flash Image): новый фотошоп и революция в редактировании изображений от Google - 10

Результат:

Тест-драйв Nano Banana (Gemini 2.5 Flash Image): новый фотошоп и революция в редактировании изображений от Google - 11

Да, можно попридераться к натуральности лица, но руки и поворот объекта с сохранением текста — это просто космос.

Тест-драйв Nano Banana (Gemini 2.5 Flash Image): новый фотошоп и революция в редактировании изображений от Google - 12

Но в итоге в этом случае добиться высокой реалистичности не получилось, все как будто бы не то. Но, уверен, такое будет решаться агентами или множественными подходами к снаряду.

Турок с кофе

Тест-драйв Nano Banana (Gemini 2.5 Flash Image): новый фотошоп и революция в редактировании изображений от Google - 13

Пока все идет хорошо, но…

Тест-драйв Nano Banana (Gemini 2.5 Flash Image): новый фотошоп и революция в редактировании изображений от Google - 14

Но не шмогла. Но на что это похоже? Уж не на типичные ли плакаты в барах?

Тест-драйв Nano Banana (Gemini 2.5 Flash Image): новый фотошоп и революция в редактировании изображений от Google - 15

Годнота!

Фоточки заката

А что на счет самых частых случаев редактирования текстом, а именно — фоточек с телефона?

А все хорошо!

Тест-драйв Nano Banana (Gemini 2.5 Flash Image): новый фотошоп и революция в редактировании изображений от Google - 16

Ну класс же, при этом надпись на бутылке даже не пошакалилась.

Чиним плитку и убираемся вокруг

Тест-драйв Nano Banana (Gemini 2.5 Flash Image): новый фотошоп и революция в редактировании изображений от Google - 17

Ррррраз и все красиво.

Тест-драйв Nano Banana (Gemini 2.5 Flash Image): новый фотошоп и революция в редактировании изображений от Google - 18

Замена еды

Тест-драйв Nano Banana (Gemini 2.5 Flash Image): новый фотошоп и революция в редактировании изображений от Google - 19

Очень залипательная история, конечно. Но диффузия остается диффузией — в мелких неважных деталях что-то начинает плыть и артефачить, например, мое отображение на гриле уже совсем не то, что было изначально.

Тест-драйв Nano Banana (Gemini 2.5 Flash Image): новый фотошоп и революция в редактировании изображений от Google - 20

Face & body swap

А вот что не получилось, так это замены лиц. То ли фотка неудачная, то ли модель не очень любит такое делать.

Тест-драйв Nano Banana (Gemini 2.5 Flash Image): новый фотошоп и революция в редактировании изображений от Google - 21

Ну, значит будем развлекаться.

«замени девушку на буран — советский орбитальный корабль-ракетоплан»:

Тест-драйв Nano Banana (Gemini 2.5 Flash Image): новый фотошоп и революция в редактировании изображений от Google - 22

Ну ладно, это было лишнее. Давайте попробуем воспроизвести что-то похожее на мое самое любимое место на планете — Maho Beach (тот самый пляж, где очень низко летают самолетики). То есть, попросим отдалиться на 30 метров.

Тест-драйв Nano Banana (Gemini 2.5 Flash Image): новый фотошоп и революция в редактировании изображений от Google - 23

Кажется неплохо!

Тест-драйв Nano Banana (Gemini 2.5 Flash Image): новый фотошоп и революция в редактировании изображений от Google - 24

Или нет? Я бы такую дамочку на спину сажать бы не рекомендовал.

Ну раз уж фотка безнадежно испорчена, то тогда вот — «нарисуй над ними пролетающий boeing 747 с крокодилом за штурвалом»:

Тест-драйв Nano Banana (Gemini 2.5 Flash Image): новый фотошоп и революция в редактировании изображений от Google - 25

Очень правдоподобно, можно в печать.

Перерисовка графиков

Тест-драйв Nano Banana (Gemini 2.5 Flash Image): новый фотошоп и революция в редактировании изображений от Google - 26

Вполне неплохо, к слову, учитывая исходные условия и упоротость графика.

Лимиты и ограничения

Модель совсем-совсем не работает с детьми.

Еще очень болезненно реагирует на что-то связанное с расами. Модель просто отказывается это делать.

Тест-драйв Nano Banana (Gemini 2.5 Flash Image): новый фотошоп и революция в редактировании изображений от Google - 27

То же самое для известных личностей, даже если запрос безобидный.

Тест-драйв Nano Banana (Gemini 2.5 Flash Image): новый фотошоп и революция в редактировании изображений от Google - 28
Тест-драйв Nano Banana (Gemini 2.5 Flash Image): новый фотошоп и революция в редактировании изображений от Google - 29

Но в ответ либо срабатывает цензор, либо он не срабатывает, но и фото не присылает.

Выводы

А выводов особо не будет. Все видно на картинках. Это страшно. Страшно круто, страшно интересно и страшно за то, сколько злоупотреблений этого будет.

Но мы живем в очень интересное время и чем дальше, тем все интереснее.

Спасибо!

P.S.: мне нравится писать всякое разное, но гораздо приятнее это делать для большего количества людей, поэтому если статья вам понравилась, то можно поддержать мой совсем начинающий зеленый канальчик в тг, в котором мне хотелось бы делиться интересностями

Мои другие статьи:

Бенчмарк качества распознавания речи (ASR) в телефонии: как мы сравниваемся с Whisper, GigaAM и T-One

Переизобретая аналитику будущего: как и почему LLM-агенты меняют анализ продуктов, но все не так просто

Автор: antipov_dmitry

Источник

Rambler's Top100