- BrainTools - https://www.braintools.ru -
Нейросети уже давно научились имитировать стиль известных художников. Стоит всего лишь написать в промте имена вроде Ван Гога или Ренуара — и получаешь картину в характерной технике. Разумеется любитель искусства или, тем более, профессионального искусствоведа такие работы раскусит моментально. Нейросети часто ошибаются в деталях: в костюмах определённой эпохи вдруг появляются современные элементы, в натюрморте может появиться продукт, которого при жизни художника просто не существовало, искажаются перспектива и текстуры.
Но ведь существует абстрактное искусство — где нет очевидных элементов, которые тут же выдают цифровое происхождение. И тогда возникает вопрос: сможет ли нейросеть создать такую абстрактную картину, что даже опытный знаток будет в сомнении — сделала ли её рука человека или алгоритм? И, что не менее интересно, как это объективно проверить? Опросы и тесты работают, но требуют большого числа респондентов и серьёзной статистики. Для небольших экспериментов больше подходят числовые характеристики, которые можно подсчитать и сравнить.
Вот тут на помощь приходит нейроэстетика — наука [1], которая пытается объяснить, что мы считаем красивым или гармоничным не через философские размышления, а анализируя сенсорные реакции [2] мозга [3] и измеримые параметры изображений. В случае с абстрактными картинами ключевые параметры — это фрактальная размерность, мультифрактальный спектр, энтропия и анизотропность.
Фрактальная размерность — мера того, насколько пространство заполнено сложной структурой. Например, линия — это размерность 1, полностью закрашенное полотно — размерность 2, а абстрактные «узоры» — что-то между ними.
Мультифрактальный спектр отражает неоднородность структуры: насколько она состоит из элементов разных масштабов — больших пятен, тонких нитей, мелких точек. Чем шире спектр, тем более разнообразной и богатой считается структура.
Энтропия Шеннона — это количественная мера информации или хаоса в изображении. Чем она выше, тем сложнее предсказать цвет или оттенок следующего пикселя и тем визуально насыщеннее и разнообразнее картина.
И, наконец, анизотропность — это степень направленности структуры. Если она близка к нулю, картинка хаотична и не имеет явно выраженных направлений. Если близка к единице, то чёткое направление на картине угадывается с первого взгляда.
Все эти параметры я взяла за основу в небольшом эксперименте: решила сгенерировать абстрактные изображения, имитирующие стиль Поллока, и сравнить их с оригиналом с помощью упомянутых числовых метрик.
Для генерации использовала без изменений один и тот же промт:
Abstract square canvas densely covered with chaotic splatters and drops of paint in warm ochre, red, and brown tones, reminiscent of Jackson Pollock's Number 5 style. Paint layers overlap creating a complex texture with large spots and scattered fine splashes. Background is light, subtly textured cream, contrasting with dense strokes. Soft, diffused lighting emphasizes volume and paint texture. Sharp frontal shot, square format, maximum detail, all elements in focus.
Генерация проводилась в Midjourney 7.0, Nano Banana Pro, Grok и Sora 2.
Полученные изображения затем оценивала через Python по методикам:
Box-Counting для фрактальной размерности D,
MF-DFA для ширины мультифрактального спектра Δα,
формулу Шеннона H для энтропии,
FFT-анализ для анизотропности.
|
Изображение |
Фрактальная размерность |
Мультифрактальный спектр |
Энтропия |
Азиотропия |
|
Оригинал |
1,80 |
0,94 |
7,2 |
0,38 |
|
Grok |
1,85 |
0,88 |
7,6 |
0,11 |
|
Midjourney 7.0 |
1,72 |
0,79 |
8,1 |
0,14 |
|
Nano Banana Pro |
1,46 |
0,32 |
5,4 |
0,45 |
|
Sora 2 |
1,64 |
0,58 |
6,5 |
0,19 |
Что это значит?
Исследования Ричарда Тейлора и его коллег по нейроэстетике установили, что зрительная кора человека лучше всего воспринимает фрактальную размерность в узком коридоре от 1,3 до 1,5. В этот диапазон укладываются природные объекты такие как горные хребты, речные дельты и даже структура наших собственных кровеносных сосудов. Мозг, столкнувшись с такими паттернами, переходит в режим энергосбережения: альфа-ритмы усиливаются, уровень кортизола падает, а орбитофронтальная кора сигнализирует о безопасности. Это не просто предпочтение, это физиологический комфорт. Когда фрактальная размеренность изображения совпадает с той которая чаще всего встречается в природе, мы испытываем то, что учёные называют «фрактальной беглостью» — состояние, когда обработка информации требует минимальных метаболических затрат.
Оригинал, который мы принимаем за эталон, в этот диапазон не вписывается и, по идее, должен вызывать стресс [4]. Этого не происходит, потому что высокую степень насыщения компенсирует высокая мультифрактальность. В природе монофракталы встречаются редко и мозг научился обрабатывать такую неоднородность, если она сохраняет статистическую самоподобность. Широкий спектр позволяет зрительной коре переключаться между уровнями иерархии без разрыва предсказания. Возникает состояние, которое исследователи описывают как «фрактальный поток»: размерность выше 1,5, но мозг не воспринимает её как чужеродную, потому что структура воспроизводит статистику живой, динамичной материи. Анизотропия добавляет вектор, который совпадает с ощущением гравитации, что дополнительно заземляет восприятие [5].
Картина, сгенерированная в Nano Banana с размерностью 1,46, попадает точно в середину эволюционного оптимума. Хотя на мой вкус [6] она далеко не лучшая из полученных имитаций. Вероятно, всё дело в том, что хоть число 1,46 математически [7] близко к статистике разреженного берёзового леса или зимнего неба с редкими облаками, узкий мультифрактальный спектр и низкая энтропия означают, что среда слишком однородна. В природе даже при размерности 1,4 всегда присутствует микрошероховатость: трещины на коре, ворсинки на листочках и т.д. Их отсутствие делает картину биологически «скучной». Мозг быстро считывает узнаваемый паттерн, снижая активность и переключая вегетативную нервную систему в парасимпатический режим. После этого не вырабатывается дофаминовое подкрепление [8] за успешное распознавание новых деталей, и эстетический интерес [9] угасает.
Имитация в Sora с размерностью слегка выходит за пределы природного оптимума. Средний мультифрактальный спектр и умеренная энтропия создают эффект «обогащённой среды»: мозг фиксирует детали, но не теряется в их множестве. Такая конфигурация активирует чувство исследовательского удовольствия. Мы находимся на верхней границе фрактальной беглости, где лёгкое напряжение сменяется удовлетворением от расшифровки. Это состояние близко к тому, что испытывает человек, смотрящий на густой осенний лес или штормовое море: сложность присутствует, но она знакома по своей статистической природе.
Изображение, созданное в Midjourney 7.0 с размерностью 1,72 и рекордной энтропией, пересекает порог эволюционной толерантности. На мой взгляд, оно больше всего похоже на оригинал. Лично мне оно понравилось больше всего, стыдно признать, даже больше оригинала. Хотя с точки зрения [10] нейробиологии ему не следовало бы нравиться. Мозг, изначально настроенный к размеру 1,3–1,5, воспринимает такую плотность информации как аномалию. Высокая энтропия означает, что локальная непредсказуемость превышает возможности зрительной коры по сегментации. Норадреналиновая система голубого пятна реагирует мгновенно: зрачки расширяются, частота сердечных сокращений растёт, включается режим ориентировочного рефлекса [11]. Однако узковатый мультифрактальный спектр (0,79) не предоставляет достаточной иерархической опоры. Мозг не может выстроить устойчивую предиктивную модель, ошибка [12] предсказания не гасится, а накапливается. Возникает не эстетическое возбуждение [13], а когнитивный шум. Картина работает как вспышка стробоскопа: привлекает, будоражит, но не удерживает. Эволюционно такие паттерны ассоциируются с опасностью или нестабильностью среды, поэтому длительное созерцание [14] вызывает утомление, а не погружение.
Абстракция от Grok с нейроэстетической точки зрения, самая неудачная. Даже при богатой текстуре плотность заполнения превышает пропускную способность механизмов пространственной интеграции в теменно-затылочной коре. Мозг пытается применить эволюционный шаблон 1,3–1,5, но не находит соответствия. Возникает конфликт [15] между ожидаемой и фактической статистикой, который регистрируется передней поясной корой как когнитивное напряжение. Высокая энтропия. усиливает эффект, лишая взгляд точек стабилизации. Это уже не фрактальная беглость, а фрактальная перегрузка. Физиологически это проявляется в росте кожно-гальванической реакции и подавлении альфа-ритмов. Картина требует чрезмерных усилий. Эволюционно такие паттерны редки в стабильной среде и чаще ассоциируются с хаотичными, потенциально угрожающими состояниями.
Уверена, что со многими нейроэстетическими выводами вы не согласитесь, но лично для меня ценны два наблюдения: во-первых, пока нейросеть не может полноценно симметрично имитировать абстрактные произведения искусства без специальных настроек; во-вторых, имитации уже достигли весьма высокого художественного уровня и, вероятно, в будущем они смогут соперничать с человеком в области абстракции на почти равных. И чисто субъективный вывод — лучше всего абстрактные картины создают Midjourney и Sora.
Автор: AnPages
Источник [16]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/29698
URLs in this post:
[1] наука: http://www.braintools.ru/article/7634
[2] реакции: http://www.braintools.ru/article/1549
[3] мозга: http://www.braintools.ru/parts-of-the-brain
[4] стресс: http://www.braintools.ru/article/9548
[5] восприятие: http://www.braintools.ru/article/7534
[6] вкус: http://www.braintools.ru/article/6291
[7] математически: http://www.braintools.ru/article/7620
[8] подкрепление: http://www.braintools.ru/article/5528
[9] интерес: http://www.braintools.ru/article/4220
[10] зрения: http://www.braintools.ru/article/6238
[11] рефлекса: http://www.braintools.ru/article/9352
[12] ошибка: http://www.braintools.ru/article/4192
[13] возбуждение: http://www.braintools.ru/article/9158
[14] созерцание: http://www.braintools.ru/article/4334
[15] конфликт: http://www.braintools.ru/article/7708
[16] Источник: https://habr.com/ru/articles/1030454/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1030454
Нажмите здесь для печати.