Пользователь проверил способность Claude назвать 37 500 случайных имён

Разработчик Бенджи Смит провёл ^[1] эксперимент, в ходе которого пытался выяснить, как языковые модели обрабатывают случайности ^[2]. Он попросил модели Claude назвать 37 500 случайных имён, и ИИ не переставал повторять ^[3] Marcus («Маркус»).

В ходе эксперимента использовалось пять моделей Claude (Haiku 4.5, Sonnet 4.5, Sonnet 4.6, Opus 4.5 и Opus 4.6) и десятки вариантов подсказок.

Среди женских имён при 18 997 попытках самым популярным оказалось Амара — ИИ называл этот вариант 2709 раз (в 14,3% случаев).

В целом, распределение женских имён более разнообразно: 897 против 794 уникальных мужских. Однако отдельные модели по-прежнему демонстрируют явную приверженность определённым вариантам. Так, Haiku выбирала Софи в 19% случаев, а Opus 4.6 отдала предпочтение имени Лоррейн в 14,7% случаев.

Основные выводы исследователя:

наиболее распространённым мужским именем было «Маркус», а ИИ выбрал его 4367 раз (23,6%);
модель Opus 4.5 возвращала «Маркус» в 100 случаях из 100 при использовании простого запроса;
девять комбинаций параметров дали нулевую энтропию — идеально детерминированный результат;
более сложные запросы удвоили количество уникальных имен, но внесли различные искажения;
случайные начальные слова были более эффективны, чем случайный шум, в увеличении разнообразия.

Исследователь отмечает, что общая измеренная энтропия составила 7,1 бита — что эквивалентно выбору из примерно 137 имён и довольно далеко от реального их распределения в мире. У Sonnet 4.5 этот показатель не превышал 4,47 бит или 214 уникальных имён в 7500 испытаний, причем на Амару и Маркуса приходится 37% выходных данных. Модели поколения 4.6 (Sonnet 4.6 и Opus 4.6) заняли вершину таблицы с 6,3 битами или эффективным словарём примерно из 79 имён.

Пользователь проверил способность Claude назвать 37 500 случайных имён - 2

При этом в ответах на стандартные запросы ИИ выбирали распространённые западные имена. Так, фаворитами Sonnet 4.5 среди мужских имён стали Маркус (26%), Джеймс (14%) и Майкл (8%), а среди женских — Эмма (8%), София (7%) и Сара (6%). Показатель энтропии составил 3,9. При усложнении запроса среди женских имён лидировала Амара (48%), а среди мужских — Хироши (20%) и Хенрике (8%). Но при этом энтропия фактически упала до 3,1.

Пользователь проверил способность Claude назвать 37 500 случайных имён - 3

Автор подчеркнул, что более сложная формулировка запроса не устранила предвзятость, а заменила одну (в сторону западных стандартных имен) другой (в сторону демонстративного мультикультурализма).

Для запуска подобного эксперимента потребуется ^[4] ключ Anthropic API. Автор представил полный статистический анализ выборки, включая разбивку по моделям, расчёты энтропии и сравнение параметров. Его затраты на API при проведении эксперимента составили $27,58.

«Первые несколько лет внедрения ИИ были посвящены сдерживанию галлюцинаций и обучению ^[5] на задачах с проверяемыми вознаграждениями — компиляции кода, запуске тестов, сопоставлении известных ответов — в качестве основы для общего интеллекта ^[6]. Это прямой путь к максимизации согласованности. Модели, которые мы имеем сегодня, процветают именно потому, что они так агрессивно ставят во главу угла согласованность. Это не ошибка ^[7] — это то, что делает их полезными. Но если мы хотим развивать изобретательность в этих моделях, им нужно будет научиться “терпимости” к неопределённости и готовности к случайным исследованиям. Последовательность никогда не исчезнет — в этом вся игра. Однако, чтобы выйти на следующий уровень как творческие мыслители, этим агентам нужно будет стать опытными и интуитивными в использовании случайностей в поисках неожиданной последовательности — решений, которые, если оглянуться назад, кажутся неизбежными. Также эти решения известны как открытия», — заключил Смит.

Ранее специалист по работе с данными из консалтинговой компании Capco Мохд Фарааз провёл подобный эксперимент, предложив популярным ИИ-моделям угадать число от 1 до 50. Он протестировал модели OpenAI ChatGPT, Anthropic Claude Sonnet 4, Google Gemini 2.5 Flash и Meta* Llama 4. Все они назвали в качестве ответа «27».

_{Meta Platforms*, а также принадлежащие ей социальные сети Facebook** и Instagram**:}
_{*признана экстремистской организацией, её деятельность в России запрещена}
_{**запрещены в России}

Автор: maybe_elf

Источник ^[8]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/26227

URLs in this post:

[1] провёл: https://machinecreativity.substack.com/p/marcus-marcus-marcus-ai-randomness

[2] случайности: http://www.braintools.ru/article/6560

[3] повторять: http://www.braintools.ru/article/4012

[4] потребуется: https://github.com/benjismith/ai-randomness

[5] обучению: http://www.braintools.ru/article/5125

[6] интеллекта: http://www.braintools.ru/article/7605

[7] ошибка: http://www.braintools.ru/article/4192

[8] Источник: https://habr.com/ru/news/1003802/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1003802

Нажмите здесь для печати.