
Почему один из самых требовательных тестов ИИ уже, похоже, пройден
Тест Лавлейс предложили в 2001 году, чтобы закрыть слабые места более известного теста Тьюринга. Названный в честь Ады Лавлейс – одной из первых программисток, которая сомневалась в творческих способностях машин, – он быстро стал считаться одним из самых жёстких критериев машинного интеллекта. Часто его воспринимают не просто как сложный, а как принципиально непроходимый для ИИ.
На деле современные большие языковые модели проходят оригинальную версию теста Лавлейс без особых проблем.
С тех пор появилось несколько вариантов теста, самый известный – Lovelace 2.0 2014 года. Эти доработки в основном исходили из убеждения, что исходная формулировка непобедима. В этой статье я утверждаю, что оригинальная – и якобы самая сложная – версия теста не представляет особой трудности для современных систем ИИ, если точно следовать её замыслу.
| Если вам интересна тема AI‑агентов и внедрения нейросетей, заглядывайте в мой Telegram‑канал ДругОпенсурса. Там я публикую свежие новости и разборы инструментов в числе первых. |
Что такое тест Lovelace
Многие годы тест Тьюринга считали «золотым стандартом» искусственного интеллекта. Но в 2001 году трое исследователей – Bringsjord, Bello и Ferrucci – раскритиковали прогресс в его прохождении: по их словам, он опирался только на силу остроумных, но поверхностных трюков.
В поисках более содержательной меры интеллекта авторы обратились к высказыванию Ады Лавлейс и перефразировали его так:
«Компьютеры не могут ничего создавать. Создание требует хотя бы происхождения чего-то нового. Но компьютеры ничего не порождают сами; они делают только то, что мы им приказываем через программы».
Bringsjord, Bello и Ferrucci предложили новый тест, названный в честь Лавлейс. Они считали, что она полагала: настоящим разумом обладают только системы, способные по-настоящему порождать что-то новое.
Простыми словами, система проходит тест Лавлейс, если:
-
она производит некоторый результат;
-
этот результат не случаен и не аномален, а возникает из процессов, которые система может надёжно повторять;
-
даже создатель системы (или человек с равными знаниями и ресурсами) не может объяснить, как именно система получила этот результат.
Иными словами, система создаёт что-то настоящее и воспроизводимое, а её создатель не может это объяснить. Тест Лавлейс обычно считают крайне строгим. Google, например, описывает его как «чрезвычайно сложный- гораздо более трудный и строгий, чем известный тест Тьюринга».
В 2014 году автор Lovelace 2.0 отметил, что «одна из критик оригинального теста Лавлейс состоит в том, что он непобедим». Типичная недавняя статья на Medium утверждает, что «ни одна система ИИ в 2025 году не прошла тест Лавлейс в строгих условиях».
Однако, как я покажу, современные LLM проходят оригинальный тест Лавлейс довольно легко.
Что считается объяснением

Ключевое слово в тесте Лавлейс – explain (объяснить). Весь тест держится на понятии необъяснимого результата. Авторы теста явно считают людей творческими существами. Это подразумевает, что люди сами могли бы пройти тест – то есть способны производить результаты, которые нельзя полностью объяснить.
Однако «объяснение» может означать очень разные вещи. Если допустить объяснение в самом широком смысле, то почти любой результат становится объяснимым, включая человеческое творчество. На вопрос, почему Толстой написал «Войну и мир», можно ответить, что это результат паттернов нейронной активности в его мозге. Или что произведение возникло из его погружения в русскую культуру XIX века.
Если принимать такие объяснения, тест Лавлейс становится невозможным не только для машин, но и для людей. Поэтому ясно, что авторы имели в виду более узкий и конкретный вид объяснения. Хотя они не дали формального определения, они указали, что объяснение должно опираться на «архитектуру системы, базу знаний и основные функции».
Их примеры уточняют смысл. Самый показательный – система генерации историй под названием Brutus, которую разработали сами авторы. Brutus специализировался на рассказах о предательстве.
На первый взгляд истории Brutus выглядят довольно сложными. Но при ближайшем рассмотрении становятся видны ограничения пред-GenAI программ. Brutus мог писать только истории о предательстве, причём по жёстко заданным структурам. Персонажи, ситуации и возможные сюжетные ходы приходилось вручную кодировать заранее. Система просто комбинировала эти заранее определённые элементы по заранее заданным логическим правилам. Вариантов было много, но настоящая новизна сильно ограничивалась, если программисты не добавляли новые сценарии вручную.
Анализ таких генераторов сюжетов показал:
«Хотя модель Brutus можно назвать симуляцией развития сюжета, это не та симуляция, которая может привести к непредсказуемым результатам. Для создания любого сюжета требуется вручную создать конкретных персонажей, конкретные планы и конкретные экземпляры событий… Механизмы сюжета в Brutus… похоже, вообще не дают вариаций».
И более прямо:
«Честно говоря, после изучения его работы представлять систему Brutus как автора историй кажется необоснованным. В этом свете проект Brutus выглядит скорее как литературная мистификация…»
Программист, создавший Brutus, мог объяснить любой его результат подробно и конкретно. Он мог восстановить точную последовательность программных шагов, по которой была сгенерирована любая история. Brutus никогда по-настоящему не удивлял своих создателей, потому что все его возможности были заранее прописаны.
Таким образом, под «объяснением» авторы теста понимали пошаговое восстановление того, как именно получен конкретный результат, на основе архитектуры и работы системы. Они даже примерно обозначили срок: такое объяснение «может занять месяц, месяцы, даже год или два», а «всё, что дольше пары лет, нам кажется уже неразумным».
GenAI vs Brutus
Как и Brutus, современные генеративные ИИ могут писать истории. Но разница в возможностях огромна.
Без ручного прописывания персонажей и сценариев современные LLM генерируют практически неограниченные комбинации характеров, событий, сеттингов, тонов и сюжетных структур. На практике пользователи чаще ограничивают систему, чем добавляют в неё новые элементы.
Любую конкретную историю, созданную ИИ, можно объяснить только на очень общем уровне. Например:
«Генеративный ИИ создаёт историю, предсказывая, какой текст наиболее вероятно должен идти дальше, на основе промпта и предыдущего контекста. Он использует паттерны, выученные на больших обучающих данных, чтобы моделировать структуру повествования, стиль и связи между идеями. История складывается динамически в реальном времени через вероятностное предсказание, а не берётся из памяти или готовых скриптов».
Но это не то объяснение, которое имел в виду тест Лавлейс. Аналогичное общее описание можно дать и человеческому творчеству. Как показывает пример Brutus, нужен не широкий теоретический обзор, а конкретное восстановление процесса создания именно этого результата. Чтобы сгенерировать историю в 500 слов, современная LLM выполняет примерно 10¹⁴–10¹⁵ отдельных вычислений. Даже если человек мог бы восстанавливать эти операции с невозможной скоростью – одно вычисление в секунду, без перерывов и ошибок, – задача заняла бы миллионы лет.
Авторы теста Лавлейс считали неразумным все, что выходит за «пару лет». Следовательно, ни один человек не способен дать требуемый тест объяснение даже для относительно короткой истории, созданной ИИ.
По оригинальной формулировке теста Лавлейс современные генеративные системы проходят его довольно легко.
Насколько сложен Лавлейс
Почему тогда тест Лавлейс до сих пор считают практически непроходимым? Предлагая пересмотренную и более простую версию теста, Марк О. Ридл писал:
«Одна из критик оригинального теста Лавлейс состоит в том, что он непобедим: любая сущность, у которой хватило ресурсов создать систему, с достаточным временем сможет объяснить результат».
Ридл не привёл аргументов в пользу этой позиции. Он, видимо, считал её самоочевидной.
Я подозреваю, что его интуиция возникла из смешения разных видов объяснения. В широком смысле создатели часто могут объяснить свои системы. Но, как мы видели, тест Лавлейс требует не широкого объяснения, а конкретного, программного восстановления процесса генерации именно этого результата. И для такого восстановления система вовсе не обязана быть особенно умной. Представьте достаточно сложный marble run – механическую «мраморную дорожку» с одним входом и множеством выходов. Малейшие вариации угла, трения и импульса могут сделать невозможным точное объяснение, по какому именно пути в итоге прошёл шарик. Создатель системы не сможет на практике восстановить точную причинную последовательность.
Marble run, возможно, не пройдёт тест Лавлейс, потому что это не «интеллектуальный агент» по определению авторов. Но пример показывает слабое место самого теста. Делая акцент на результатах, которые трудно объяснить, тест может измерять непредсказуемость, а не креативность. Другие критики креативности ИИ часто незаметно добавляют в тест новые требования.
Например, автор книги Non-Computable You (2022) Роберт Дж. Маркс обсуждает AlphaGo:
«В матче против чемпиона мира Ли Седоля в 2016 году AlphaGo сделал неожиданный ход. Те, кто понимал игру, назвали его гениальным и непохожим на человеческий. […]
Тест Лавлейс не пройден. Если бы AlphaGo выполнил задачу, на которую его не программировали, например, выиграл у всех в простую игру Parcheesi, тест был бы пройден. Но в текущем виде AlphaGo не креативен. Он может выполнять только ту задачу, на которую его обучали – играть в го».
Однако оригинальный тест Лавлейс не требует, чтобы ИИ делал то, на что его не обучали, и не требует, чтобы результат удивлял людей. Эти дополнительные условия были добавлены позже.
Заключение
Современные генеративные ИИ-системы проходят тест Лавлейс в его оригинальной формулировке довольно прямолинейно. Утверждения, что ИИ не может его пройти, возникают либо из непонимания природы объяснения, либо из тихого переопределения самого теста.
Возможно, это отражает наблюдение, которое Ада Лавлейс сделала почти два века назад:
«При рассмотрении любого нового предмета часто сначала переоценивают то, что кажется интересным или замечательным; а потом, по естественной реакции, недооценивают истинное положение дел, когда обнаруживают, что наши представления превосходили то, что было реально обоснованно».
Это не доказывает, что у ИИ есть разум, сознание или подлинная креативность. В следующей статье я собираюсь показать, что тест Лавлейс вообще не очень хороший измеритель креативности.
А пока это показывает, как легко современные ИИ преодолевают benchmarks, которые ещё недавно считались непреодолимыми. Нежелание это признавать говорит о чем-то важном – возможно, меньше о машинах, а больше о том, как мы к ним относимся.
Автор: Qwertcoser


