Разработчик Бенджи Смит провёл эксперимент, в ходе которого пытался выяснить, как языковые модели обрабатывают случайности. Он попросил модели Claude назвать 37 500 случайных имён, и ИИ не переставал повторять Marcus («Маркус»).

В ходе эксперимента использовалось пять моделей Claude (Haiku 4.5, Sonnet 4.5, Sonnet 4.6, Opus 4.5 и Opus 4.6) и десятки вариантов подсказок.
Среди женских имён при 18 997 попытках самым популярным оказалось Амара — ИИ называл этот вариант 2709 раз (в 14,3% случаев).
В целом, распределение женских имён более разнообразно: 897 против 794 уникальных мужских. Однако отдельные модели по-прежнему демонстрируют явную приверженность определённым вариантам. Так, Haiku выбирала Софи в 19% случаев, а Opus 4.6 отдала предпочтение имени Лоррейн в 14,7% случаев.
Основные выводы исследователя:
-
наиболее распространённым мужским именем было «Маркус», а ИИ выбрал его 4367 раз (23,6%);
-
модель Opus 4.5 возвращала «Маркус» в 100 случаях из 100 при использовании простого запроса;
-
девять комбинаций параметров дали нулевую энтропию — идеально детерминированный результат;
-
более сложные запросы удвоили количество уникальных имен, но внесли различные искажения;
-
случайные начальные слова были более эффективны, чем случайный шум, в увеличении разнообразия.
Исследователь отмечает, что общая измеренная энтропия составила 7,1 бита — что эквивалентно выбору из примерно 137 имён и довольно далеко от реального их распределения в мире. У Sonnet 4.5 этот показатель не превышал 4,47 бит или 214 уникальных имён в 7500 испытаний, причем на Амару и Маркуса приходится 37% выходных данных. Модели поколения 4.6 (Sonnet 4.6 и Opus 4.6) заняли вершину таблицы с 6,3 битами или эффективным словарём примерно из 79 имён.

При этом в ответах на стандартные запросы ИИ выбирали распространённые западные имена. Так, фаворитами Sonnet 4.5 среди мужских имён стали Маркус (26%), Джеймс (14%) и Майкл (8%), а среди женских — Эмма (8%), София (7%) и Сара (6%). Показатель энтропии составил 3,9. При усложнении запроса среди женских имён лидировала Амара (48%), а среди мужских — Хироши (20%) и Хенрике (8%). Но при этом энтропия фактически упала до 3,1.

Автор подчеркнул, что более сложная формулировка запроса не устранила предвзятость, а заменила одну (в сторону западных стандартных имен) другой (в сторону демонстративного мультикультурализма).
Для запуска подобного эксперимента потребуется ключ Anthropic API. Автор представил полный статистический анализ выборки, включая разбивку по моделям, расчёты энтропии и сравнение параметров. Его затраты на API при проведении эксперимента составили $27,58.
«Первые несколько лет внедрения ИИ были посвящены сдерживанию галлюцинаций и обучению на задачах с проверяемыми вознаграждениями — компиляции кода, запуске тестов, сопоставлении известных ответов — в качестве основы для общего интеллекта. Это прямой путь к максимизации согласованности. Модели, которые мы имеем сегодня, процветают именно потому, что они так агрессивно ставят во главу угла согласованность. Это не ошибка — это то, что делает их полезными. Но если мы хотим развивать изобретательность в этих моделях, им нужно будет научиться “терпимости” к неопределённости и готовности к случайным исследованиям. Последовательность никогда не исчезнет — в этом вся игра. Однако, чтобы выйти на следующий уровень как творческие мыслители, этим агентам нужно будет стать опытными и интуитивными в использовании случайностей в поисках неожиданной последовательности — решений, которые, если оглянуться назад, кажутся неизбежными. Также эти решения известны как открытия», — заключил Смит.
Ранее специалист по работе с данными из консалтинговой компании Capco Мохд Фарааз провёл подобный эксперимент, предложив популярным ИИ-моделям угадать число от 1 до 50. Он протестировал модели OpenAI ChatGPT, Anthropic Claude Sonnet 4, Google Gemini 2.5 Flash и Meta* Llama 4. Все они назвали в качестве ответа «27».
Meta Platforms*, а также принадлежащие ей социальные сети Facebook** и Instagram**:
*признана экстремистской организацией, её деятельность в России запрещена
**запрещены в России
Автор: maybe_elf


