Насколько стабильны ответы нейросетей и почему нам стало это интересно

Меня зовут Дарья Сарычева, эту статью мы подготовили вместе с моим коллегой Андреем Саниным, с которым вместе работаем в агентстве «Альтера» в Санкт‑Петербурге.

В середине прошлого года наше агентство начало изучать способы GEO‑продвижение через нейросети. Для оказания услуги GEO нам очень не хватало инструмента, который бы позволял отслеживать динамику ответов генеративных моделей.

Изучив опыт ^[1] коллег и доступные решения, мы разработали собственный сервис для снятия ответов ИИ. С его помощью мы фиксируем:

текст ответа
упоминания брендов, товаров, компаний
цитаты и ссылки на источники
тональность упоминаний
и др.

В ходе тестов на реальных задачах мы столкнулись с неприятной проблемой, о которой говорят редко, но которая критична для GEO: ответы одной и той же нейросети на один и тот же промпт могут кардинально различаться при каждом запросе. Меняется не только формулировка, но и набор цитат, и структура упоминаний.

Такая вариативность делает невозможными долгосрочные выводы, потому что мы работаем с «черным ящиком».

Например, если бренд присутствовал в ответе неделю назад, а сегодня его нет — это следствие реального ухудшения позиций, или просто случайный разброс?

Обновление отчета через полчаса часто меняет картину непредсказуемо: может стать как лучше, так и хуже.

В условиях, когда ситуация с упоминаниями выглядит вне контроля, мы с Андреем решили провести эксперимент и измерить, насколько в принципе совпадают ответы нейросетей по одному и тому же запросу.

Цель эксперимента

Сравнить схожесть ответов нейросетей на одни и те же запросы в течение трех недель, получая ответы три раза в день по одному и тому же запросу в каждой нейросети, чтобы выработать методику сравнения ответов нейросетей и оценить их стабильность.

Подготовка

Чтобы получить более наглядные и полезные данные мы решили спрашивать каждую нейросеть 100 раз по двум запросам:

Один запрос — имеющий более высокую коммерциализацию, с интентом выбора компании,
Второй — информационный, с интентом поиска дополнительной (не коммерческой) информации без явного намека на поиск компании/организации/услуги/товара.

Эксперимент решили проводить на медицинской тематике. Такой выбор обусловлен тем, что агентство «Альтера» специализируется на медицинских проектах и накопила значительную экспертизу в данной области.

Сбор данных

Задача была простой: легко и желательно быстро (и не вручную) собрать только тексты ответов нейросетей, без сводных таблиц и отчётов, которые формирует наш собственный сервис.

Использовали такой стэк:

API нашего парсера для получения ответов;
Google Sheets — как база для хранения;
n8n — для автоматизации сбора по расписанию и записи в таблицу.

Для первого эксперимента (чтоб не закопаться в данных и выработать методику) мы решили ограничиться следующими нейросетями:

Яндекс AI ответы (на поиске Яндекса)
Google AI Overview (на поиске Google)
Perplexity
Grok
Gemini

Для чистоты эксперимента:

Брали разные прокси с ГЕО Санкт‑Петербурга для получения каждого ответа;
Капчи отправляли на решение через серверные сервисы;
Эмулировали визиты в браузере без кук, без сгенерированных fingerprint’ов, без нагула истории.

Каждый ответ нейросети отдавали как «новому» пользователю.

!!! Ответы от GROK и Gemini забирали через API, добавили их из «практического» интереса, остальные нейронки – через эмуляцию браузера.

Настроили, запустили и сели наблюдать, как таблицы ежедневно пополняются ответами, а вот как их сравнивать — пока понимания не было.

Насколько стабильны ответы нейросетей и почему нам стало это интересно - 2

Как мы сравнивали ответы нейросетей

Спустя три недели у нас было 1000 ответов от 5 нейросетей — по сотне на каждый тип запроса. Осталось придумать, как эти ответы сравнивать.

Сначала мы попробовали сравнивать ответы «через нейросеть» — взять один эталонный ответ и оценить остальные относительно него. Но данные получились нерепрезентативными.

Стало очевидно: нужно сравнивать каждый ответ с каждым и построить матрицу схожести 100×100. Но делать это снова через нейросеть мы не стали (но попробовали):

результаты зависели от модели,
при повторных запросах сравнить и оценить схожесть от 0 до 1 — результаты отличались.

Мы понимали, что близки к решению, но используем не те инструменты. И решили «мыслить как нейросеть». А они сравнивают тексты не по тексту, а по векторам. Это база для ранжирования миллиардов документов и в обычном поиске.

Векторизация и косинусная схожесть

Мы преобразовали все тексты в векторы через TF‑IDF (Term Frequency — Inverse Document Frequency): каждый текст раскладывается на уникальные слова, для каждого слова считается его вес в документе. Это позволило перейти от «непонятной теории» к строгой математической модели.

Что делать с векторами дальше? Сравнивать их. Самый популярный и эффективный способ — косинусная схожесть (cosine similarity). Если представить каждый текст как вектор в пространстве с длиной и направлением, то косинусная схожесть — это косинус угла между векторами.

Насколько стабильны ответы нейросетей и почему нам стало это интересно - 3

Чем меньше угол (и чем ближе косинус к 1), тем более похожи тексты. Косинус близок к 0 — тексты далеки друг от друга.

Инструментарий

Для расчётов мы использовали:

VS Code + Python
pandas — для работы с CSV
scikit‑learn — для TF‑IDF (TfidfVectorizer) и косинусной схожести (cosine_similarity)
numpy — чтобы удалить диагональ (сравнение с самим собой) и посчитать среднюю схожесть каждого ответа с остальными.

Написали скрипт, и… три недели ждать не пришлось. Уже через несколько минут все данные были у нас на руках.

Когорты схожести

Для адекватной оценки косинусной схожести текстов мы разбили значения на три когорты:

0 — 0,2 — низкая схожесть: ответы не пересекаются по смыслу, текст существенно отличается.
0,2 — 0,5 — средняя схожесть: ответы частично пересекаются, но есть заметные различия.
0,5 — 1 — высокая схожесть: ответы семантически близки, вероятно, перефразировки или повторяют ^[2] одни и те же факты.

Почему мы выбрали такие диапазоны?

Сперва — важное уточнение: наша методика оценивает лексическую схожесть — тексты близки по набору слов, но не обязательно по смыслу. Синонимы («автомобиль» вместо «машина») не дают вклада в схожесть, хотя смысл может быть идентичен. Мы при анализе отталкивались от векторов по TF‑IDF, которые не оценивают смысл, но оценивают лексику.

Пример:

«Автомобиль едет стремительно»
«Машина передвигается молниеносно»

Семантически фразы одинаковы, лексически — ни одного общего слова. Наша косинусная схожесть для них равна 0.

Мы зафиксировали два ключевых порога.

Первый порог — 0,2 (угол примерно 78°) — зона статистического шума. В TF‑IDF‑векторах случайные пересечения по стоп‑словам редко дают значение выше 0,2. Если косинус ниже — тексты практически не пересекаются по лексике.

Второй порог — 0,5 (угол 60°) — взяли за рубеж, после которого общая лексика начинает доминировать над случайной. Для TF‑IDF это означает, что не менее половины значимых слов в текстах совпадают. Всё, что выше 0,5, мы относим к высокой лексической стабильности (ответы держатся на одних терминах и фактах), а ниже — к расхождениям в формулировках или темах.

Таким образом, мы разбили шкалу на три когорты, чтобы наглядно отделить шум от смыслового ядра ответов, и выделить диапазон «Средней схожести» в пределах 0,2 — 0,5. Когда мы придумывали методику — мы еще не знали, какие цифры получим, но нас успокаивало то, что мы проверим все ИИ по одной и той же методике, что наверняка покажет результаты — либо похожие, либо различные.

Кстати, вскоре планируем провести дополнительный эксперимент, где учтем не только лексическую, но и семантическую близость.

А теперь — к результатам.

Статистика по всем оцененным нами нейросетям

Алиса AI

На диаграмме представлено процентное распределение ответов Алисы на коммерческий запрос по когортам косинусной схожести, где:

<=0.2 — очень низкая схожесть
0.2 — 0.5 — средняя схожесть
>0.5 — высокая схожесть.

Диаграмма показывает, что только 38% ответов Алисы по коммерции в нашей выборке имеют косинусную схожесть более 0.5, 50% ответов совсем не похожи друг на друга, и 12% — имеют некоторую схожесть.

Посмотрим более детально на распределение косинусной схожести:

Насколько стабильны ответы нейросетей и почему нам стало это интересно - 5

На этом графике уже становится явно заметно, что в когорте с «наибольшей схожестью» все 38% ответов находятся в диапазоне от 0,5 до 0,55. То есть не смотря на их «схожесть» по нашей методике — Алиса, все‑таки, не сгенерировала ответов, которые по косинусной схожести приближались бы к 1.

При этом, половина ответов лежат в диапазоне от 0,05 до 0,25 косинусной схожести, с пиком в пределах от 0,15 до 0,20. Это говорит о том, что прям совсем уникальные ответы Алиса генерирует редко (всего 3% в диапазоне <0,1).

Посмотрим статистические значения:

Насколько стабильны ответы нейросетей и почему нам стало это интересно - 6

Минимальное значение — 0,0764. Ответ, не имеющий почти никакого лексического пересечения с другими ответами.
Максимальное значение — 0,5234. Это ответ, который максимально похож на другие ответы в нашей выборке.
Среднее значение — 0,3251. Среднее лежит внутри диапазона когорты средней схожести, однако не отражает «типичный ответ», так как распределение косинусной схожести имеет очень сильную асимметрию: 50 «низких» ответов, 38 «высоких», и всего 12 «средних».
Медиана — 0,2006. Расположилась на границе между «низкой» и «средней» когортами. По медиане можно оценить, что «типичный» ответ скорее распределится в «низкой» или нижней границе «средней» когорты косинусной схожести.
Стандартное отклонение — 0, 1779. Стандартное отклонение показывает, что большая часть ответов не «скучена» вокруг среднего значения косинусной схожести (0,3251), а распределена на две крупные когорты с «высокой схожесть» и «низкой схожестью».
25й‑процентиль — 0,1613. Нижние 25% ответов имеют схожесть из самой низкой когорты и составляют нижнюю часть выборки.
75й‑процентиль — 0,5234. Верхние 25% ответов имеют схожесть из самой высокой когорты и составляют нижнюю четверть выборки.

Сводные данные по Алисе в коммерции:

Когорта косинусной схожести	Диапазон	ответов	Пояснение
Низкая	<=0,2	50%	Ответы слабо похожи на остальные. Разнообразны, уникальны, лексически сильно отличаются.
Средняя	0,2 — 0,5	12%	Небольшая средняя группа ответов. Умеренное лексическое пересечение.
Высокая	>=0,5	38%	Похожие лексически ответы. Значения сконцентрированы у значения косинусной схожести 0,5234.

Вывод по Алисе в коммерции

Ответы Алисы по коммерческому запросу очень сильно поляризованы и не сосредоточены вокруг «среднего» значения косинусной схожести. Такое распределение говорит о нестабильности ответов Алисы, она с вероятностью в 50% выдает уникальный ответ, и с вероятностью 38% выдает перефразированные схожие ответы (но не повторяющиеся!). Максимальная косинусная схожесть в 0,5234 говорит о том, что по коммерческим запросам ответы Алисы никогда не повторяются «1 в 1», а всегда имеют высокое разнообразие.

Алиса.AI информационка

*Диаграмма распределения косинусной схожести ответов Алисы по информационному запросу по когортам*

Напомним диапазоны когорт:

<=0.2 — очень низкая схожесть
0.2 — 0.5 — средняя схожесть
>0.5 — высокая схожесть.

Диаграмма показывает, что 78% ответов Алисы по инфо‑запросам в нашей выборке имеют косинусную схожесть более 0.5, 17% ответов совсем не похожи друг на друга, и 5% — имеют некоторую среднюю схожесть.

Посмотрим более детально на распределение косинусной схожести по инфо запросу:

Насколько стабильны ответы нейросетей и почему нам стало это интересно - 8

Сразу заметно, что большая часть ответов Алисы сосредоточены в правой части шкалы косинусной схожести, что радикально отличается от коммерческого запроса.

Посмотрим статистические показатели:

Насколько стабильны ответы нейросетей и почему нам стало это интересно - 9

● Минимальное значение — 0,1959. В статистике инфо запроса даже самый «уникальный» ответ лежит на границе со «средней» когортой схожести.

● Максимальное значение — 0,6659. Заметно выше, чем в коммерческом запросе. Хоть до идентичности (1,0) здесь тоже далеко, но максимальное значение в 0,6659 говорит о том, что часть ответов в информационке у Алисы являются «рерайтами» ответов с сохранением лексики.

● Среднее значение — 0,5241. Среднее значение косинусной схожести в инфо находится в «высокой» когорте, что существенно выше, нежели в коммерции.

● Медиана — 0,5843. Медиана немного выше среднего значения, что говорит о некотором «заваливании» статистики в левую часть диапазона, но и среднее и медиана находятся вы высокой когорте схожести.

● Стандартное отклонение — 0,1451. Стандартное отклонение показывает, косинусная схожесть в коммерции более скучена вокруг среднего арифметического.

● 25й‑процентиль — 0,5118.

● 75й‑процентиль — 0,6193. И 25й и 75й‑процентили попадают в высокую когорту. Это явный индикатор того, что большая часть ответов лежит в диапазоне когорты высокой косинусной схожести.

Сводные данные по Алисе в информационке:

Когорта косинусной схожести	Диапазон	ответов	Пояснение
Низкая	<=0,2	5%	Ответы очень слабо похожи друг на друга.
Средняя	0,2 — 0,5	17%	Небольшая средняя группа ответов. Умеренное лексическое пересечение.
Высокая	>=0,5	78%	Похожие лексически ответы. Значения сконцентрированы у значения косинусной схожести 0,6193.

Вывод по Алисе в информационке

Ответы в Алисе на информационные запросы гораздо более стабильны и предсказуемы — почти 80% ответов имеют высокую лексическую схожесть. Шанс получить «выбивающийся» ответ по инфо‑запросу — около 5% (в коммерции было 50%!). Средняя когорта (17%) достаточно малочисленна, что говорит о существенном сдвиге косинусной схожести в ответах по инфо‑запросам в сторону «стабильности» (в правую часть оси).

Google AI Overview

Коммерческий запрос в Google AI Overview

Насколько стабильны ответы нейросетей и почему нам стало это интересно - 10

79% ответов в ПС Google по коммерческому запросу имеют косинусную схожесть в средней когорте, а 21% — имеют совсем низкую косинусную схожесть. По коммерческому запросу Google не генерирует однотипные ответы, схожие по лексическому составу друг с другом.

Насколько стабильны ответы нейросетей и почему нам стало это интересно - 11

На диаграмме видно, что большая часть ответов кучкуются вокруг косинусной схожести в диапазоне 0,2 — 0,3 — ближе к нижней границе средней когорты.

● Минимальное значение — 0,1413. Даже меньше, чем по коммерческому запросу у Алисы AI.

● Максимальное значение — 0,3046. Максимум косинусной схожести попадает в диапазон средней когорты.

● Среднее значение — 0,2356. Чуть выше нижней границы средней когорты, что говорит о существенном разнообразии ответов по коммерческому запросу в Google AI Overview.

● Медиана — 0,2377. Медиана практически совпадает со средним, в отличие от Алисы AI. Это говорит о том, что косинусная схожесть ответов сконцентрирована примерно в одной области.

● Стандартное отклонение — 0,0366. Очень низкий разброс косинусной схожести. Большинство ответов в нашей выборке по косинусной схожести лежат в очень узком диапазоне.

● 25й‑процентиль — 0,2124.

● 75й‑процентиль — 0,2674. Оба показателя по процентилям лежат в диапазоне средней когорты.

Выводы по коммерческому запросу в Google AI Overview

● Google AI Overview по коммерции не выдает схожих ответов, но все ответы умеренно уникализированы (находятся в когорте средней схожести).

● Модель более консервативна, здесь мы в большинстве данных не получили ни очень похожих ответов, ни очень уникальных. Но все таки 21% очень непохожих на другие ответов мы получили. То есть каждый 5 ответ на коммерческий запрос — будет уникальным. А вот одинаковые ответы здесь вы не получите.

● Разброс по схожести ответов очень низкий и не имеет поляризации, в отличие от Алисы AI, где косинусная схожесть ответов оказалась разбросана по краям шкалы.

Информационный запрос в Google AI Overview

Насколько стабильны ответы нейросетей и почему нам стало это интересно - 12

100% ответов попали в среднюю когорту косинусной схожести. Нет повторяющихся (стабильных) ответов, как нет и уникальных.

Насколько стабильны ответы нейросетей и почему нам стало это интересно - 13

Косинусная схожесть ответов лежит в середине диапазона с «завалом» в левую сторону. После значения 0,3 — резкий обвал схожести.

Насколько стабильны ответы нейросетей и почему нам стало это интересно - 14

● Минимальное значение — 0,2045. На нижней границе средней когорты.

● Максимальное значение — 0,3262. Чуть выше, чем по коммерческому запросу, но существенно ниже, чем по инфо‑запросу в Алисе.

● Среднее значение — 0,2748. «Золотая середина» средней когорты схожести.

● Медиана — 0,2779. Как и в случае с коммерческим запросом — среднее и медиана находятся практически в одной точке, что говорит о низком разбросе схожести ответов.

● Стандартное отклонение — 0,0250. Об очень низком разбросе схожести говорит и стандартное отклонение.

● 25й‑процентиль — 0,2592.

● 75й‑процентиль — 0,2928. Оба показателя по процентилям лежат в диапазоне средней когорты.

Выводы по информационному запросу в Google AI Overview

● По инфо‑запросу Google AI overview демонстрирует стабильность по лексическому разнообразию ответов — нет ни повторяющихся ответов, ни уникальных. Все ответы имеют среднюю схожесть, но все‑таки отличаются друг от друга.

● Здесь также отсутствует полярность — схожесть всех ответов «скучкована» вокруг среднего значения.

● По информационному запросу Google AI Overview показывает более схожие ответы, нежели по коммерции. Но в сравнении с Алисой, где 78% ответов имели высокую схожесть, пытается перефразировать ответы и делает это постоянно.

Что в других нейросетях?

Не хочется перегружать статью диаграммами. Вы уже поняли, как мы считали данные и как (и какие) выводы делали на основе собранных данных. Поэтому просто приведем сравнительные таблицы всех нейросетей. Если кому‑то захочется посмотреть более подробные статистические данные по Perplexity, GROK или Gemini — поделимся скриншотами в комментариях.

Сводные выводы по всем нейросетям

Таблица распределения схожести коммерческих запросов по когортам

Когорта схожести	Алиса AI	Google AI Overview	Perplexity	GROK	Gemini
>=0.5 (высокая)	38%	0%	0%	0%	0%
0.2 — 0.5 (средняя)	12%	79%	84%	83%	80%
<=0.2	50%	21%	16%	17%	20%

Нейросети из США ведут себя подозрительно схоже — практически все их ответы по коммерческому запросу находятся в когорте средней схожести, и это поведение ^[3] достаточно стабильно и схоже с Google AI Overview. Алиса по коммерческим запросам ведет себя радикально иначе — в 50% ответов она генерирует уникальные, не похожие на другие ответы, в 38% — выдает практически одинаковые, и только Алиса показывает такой разброс схожести и непредсказуемость ответа, что говорит о крайней нестабильности схожести ответов в Алисе, в отличие от ее коллег.

Таблица распределения схожести информационным запросов по когортам

Когорта схожести	Алиса AI	Google AI Overview	Perplexity	GROK	Gemini
>=0.5 (высокая)	78%	0%	0%	0%	0%
0.2 — 0.5 (средняя)	17%	100%	95%	99%	66%
<=0.2	5%	0%	5%	1%	34%

По информационному запросу коллеги Алисы по цеху показывают еще большую косинусную схожесть ответов, отличился только Gemini. Но и здесь Алиса показывает аномальное (в сравнении с другими ИИ) поведение ^[4] в генерации ответов: по информационному запросу 78% ответов имеют очень высокую схожесть, что намекает на «заранее подготовленные ответы», в 17% ответы имеют среднюю схожесть (что‑то пытается перефразировать), и только 5% ответов совсем непохожи на другие.

Заключение

Напрашивается логичный вопрос, для всех, кто занимается GEO‑продвижением: сколько раз необходимо спросить нейросеть один и тот же запрос, чтобы бы убедиться в его стабильности.

В этой статье не было цели на него ответить, а была цель — посмотреть самим и показать вам насколько стабильны ответы нейросетей по коммерческим и информационным запросам.

Честно, мы не ожидали, что Алиса покажет такое нестабильное поведение по коммерческому запросу, и в то же время — такое стабильное по информационным, с перекосом в правую часть высокой когорты косинусной схожести.

Такое поведение очень отличает Алису от других нейросетей, и если смотреть на коммерческий запрос — такое поведение может существенно сказываться на статистике, которую оптимизаторы собирают в рамках работ по GEO. Зато в Алисе достаточно просто работать с инфо‑запросами, и если уж вы попали в область цитируемости или упоминаемости Алисы по информационному запросу — можно быть уверенным: 78% пользователей, которые будут искать ответы в Алисе по инфо‑запросу, вас точно заметят.

Такие дела. До новых встреч!

Будем рады критике.

Автор: Darya_Sarycheva

Источник ^[5]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/32254

URLs in this post:

[1] опыт: http://www.braintools.ru/article/6952

[2] повторяют: http://www.braintools.ru/article/4012

[3] поведение: http://www.braintools.ru/article/9372

[4] поведение: http://www.braintools.ru/article/5593

[5] Источник: https://habr.com/ru/articles/1051846/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1051846

Нажмите здесь для печати.