
Меня зовут Дарья Сарычева, эту статью мы подготовили вместе с моим коллегой Андреем Саниным, с которым вместе работаем в агентстве «Альтера» в Санкт‑Петербурге.
В середине прошлого года наше агентство начало изучать способы GEO‑продвижение через нейросети. Для оказания услуги GEO нам очень не хватало инструмента, который бы позволял отслеживать динамику ответов генеративных моделей.
Изучив опыт коллег и доступные решения, мы разработали собственный сервис для снятия ответов ИИ. С его помощью мы фиксируем:
-
текст ответа
-
упоминания брендов, товаров, компаний
-
цитаты и ссылки на источники
-
тональность упоминаний
-
и др.
В ходе тестов на реальных задачах мы столкнулись с неприятной проблемой, о которой говорят редко, но которая критична для GEO: ответы одной и той же нейросети на один и тот же промпт могут кардинально различаться при каждом запросе. Меняется не только формулировка, но и набор цитат, и структура упоминаний.
Такая вариативность делает невозможными долгосрочные выводы, потому что мы работаем с «черным ящиком».
Например, если бренд присутствовал в ответе неделю назад, а сегодня его нет — это следствие реального ухудшения позиций, или просто случайный разброс?
Обновление отчета через полчаса часто меняет картину непредсказуемо: может стать как лучше, так и хуже.
В условиях, когда ситуация с упоминаниями выглядит вне контроля, мы с Андреем решили провести эксперимент и измерить, насколько в принципе совпадают ответы нейросетей по одному и тому же запросу.
Цель эксперимента
Сравнить схожесть ответов нейросетей на одни и те же запросы в течение трех недель, получая ответы три раза в день по одному и тому же запросу в каждой нейросети, чтобы выработать методику сравнения ответов нейросетей и оценить их стабильность.
Подготовка
Чтобы получить более наглядные и полезные данные мы решили спрашивать каждую нейросеть 100 раз по двум запросам:
-
Один запрос — имеющий более высокую коммерциализацию, с интентом выбора компании,
-
Второй — информационный, с интентом поиска дополнительной (не коммерческой) информации без явного намека на поиск компании/организации/услуги/товара.
Эксперимент решили проводить на медицинской тематике. Такой выбор обусловлен тем, что агентство «Альтера» специализируется на медицинских проектах и накопила значительную экспертизу в данной области.
Сбор данных
Задача была простой: легко и желательно быстро (и не вручную) собрать только тексты ответов нейросетей, без сводных таблиц и отчётов, которые формирует наш собственный сервис.
Использовали такой стэк:
-
API нашего парсера для получения ответов;
-
Google Sheets — как база для хранения;
-
n8n — для автоматизации сбора по расписанию и записи в таблицу.
Для первого эксперимента (чтоб не закопаться в данных и выработать методику) мы решили ограничиться следующими нейросетями:
-
Яндекс AI ответы (на поиске Яндекса)
-
Google AI Overview (на поиске Google)
-
Perplexity
-
Grok
-
Gemini
Для чистоты эксперимента:
-
Брали разные прокси с ГЕО Санкт‑Петербурга для получения каждого ответа;
-
Капчи отправляли на решение через серверные сервисы;
-
Эмулировали визиты в браузере без кук, без сгенерированных fingerprint’ов, без нагула истории.
Каждый ответ нейросети отдавали как «новому» пользователю.
!!! Ответы от GROK и Gemini забирали через API, добавили их из «практического» интереса, остальные нейронки – через эмуляцию браузера.
Настроили, запустили и сели наблюдать, как таблицы ежедневно пополняются ответами, а вот как их сравнивать — пока понимания не было.

Как мы сравнивали ответы нейросетей
Спустя три недели у нас было 1000 ответов от 5 нейросетей — по сотне на каждый тип запроса. Осталось придумать, как эти ответы сравнивать.
Сначала мы попробовали сравнивать ответы «через нейросеть» — взять один эталонный ответ и оценить остальные относительно него. Но данные получились нерепрезентативными.
Стало очевидно: нужно сравнивать каждый ответ с каждым и построить матрицу схожести 100×100. Но делать это снова через нейросеть мы не стали (но попробовали):
-
результаты зависели от модели,
-
при повторных запросах сравнить и оценить схожесть от 0 до 1 — результаты отличались.
Мы понимали, что близки к решению, но используем не те инструменты. И решили «мыслить как нейросеть». А они сравнивают тексты не по тексту, а по векторам. Это база для ранжирования миллиардов документов и в обычном поиске.
Векторизация и косинусная схожесть
Мы преобразовали все тексты в векторы через TF‑IDF (Term Frequency — Inverse Document Frequency): каждый текст раскладывается на уникальные слова, для каждого слова считается его вес в документе. Это позволило перейти от «непонятной теории» к строгой математической модели.
Что делать с векторами дальше? Сравнивать их. Самый популярный и эффективный способ — косинусная схожесть (cosine similarity). Если представить каждый текст как вектор в пространстве с длиной и направлением, то косинусная схожесть — это косинус угла между векторами.

Чем меньше угол (и чем ближе косинус к 1), тем более похожи тексты. Косинус близок к 0 — тексты далеки друг от друга.
Инструментарий
Для расчётов мы использовали:
-
VS Code + Python
-
pandas — для работы с CSV
-
scikit‑learn — для TF‑IDF (TfidfVectorizer) и косинусной схожести (cosine_similarity)
-
numpy — чтобы удалить диагональ (сравнение с самим собой) и посчитать среднюю схожесть каждого ответа с остальными.
Написали скрипт, и… три недели ждать не пришлось. Уже через несколько минут все данные были у нас на руках.
Когорты схожести
Для адекватной оценки косинусной схожести текстов мы разбили значения на три когорты:
-
0 — 0,2 — низкая схожесть: ответы не пересекаются по смыслу, текст существенно отличается.
-
0,2 — 0,5 — средняя схожесть: ответы частично пересекаются, но есть заметные различия.
-
0,5 — 1 — высокая схожесть: ответы семантически близки, вероятно, перефразировки или повторяют одни и те же факты.
Почему мы выбрали такие диапазоны?
Сперва — важное уточнение: наша методика оценивает лексическую схожесть — тексты близки по набору слов, но не обязательно по смыслу. Синонимы («автомобиль» вместо «машина») не дают вклада в схожесть, хотя смысл может быть идентичен. Мы при анализе отталкивались от векторов по TF‑IDF, которые не оценивают смысл, но оценивают лексику.
Пример:
-
«Автомобиль едет стремительно»
-
«Машина передвигается молниеносно»
Семантически фразы одинаковы, лексически — ни одного общего слова. Наша косинусная схожесть для них равна 0.
Мы зафиксировали два ключевых порога.
Первый порог — 0,2 (угол примерно 78°) — зона статистического шума. В TF‑IDF‑векторах случайные пересечения по стоп‑словам редко дают значение выше 0,2. Если косинус ниже — тексты практически не пересекаются по лексике.
Второй порог — 0,5 (угол 60°) — взяли за рубеж, после которого общая лексика начинает доминировать над случайной. Для TF‑IDF это означает, что не менее половины значимых слов в текстах совпадают. Всё, что выше 0,5, мы относим к высокой лексической стабильности (ответы держатся на одних терминах и фактах), а ниже — к расхождениям в формулировках или темах.
Таким образом, мы разбили шкалу на три когорты, чтобы наглядно отделить шум от смыслового ядра ответов, и выделить диапазон «Средней схожести» в пределах 0,2 — 0,5. Когда мы придумывали методику — мы еще не знали, какие цифры получим, но нас успокаивало то, что мы проверим все ИИ по одной и той же методике, что наверняка покажет результаты — либо похожие, либо различные.
Кстати, вскоре планируем провести дополнительный эксперимент, где учтем не только лексическую, но и семантическую близость.
А теперь — к результатам.
Статистика по всем оцененным нами нейросетям
Алиса AI
На диаграмме представлено процентное распределение ответов Алисы на коммерческий запрос по когортам косинусной схожести, где:
-
<=0.2 — очень низкая схожесть
-
0.2 — 0.5 — средняя схожесть
-
>0.5 — высокая схожесть.
Диаграмма показывает, что только 38% ответов Алисы по коммерции в нашей выборке имеют косинусную схожесть более 0.5, 50% ответов совсем не похожи друг на друга, и 12% — имеют некоторую схожесть.
Посмотрим более детально на распределение косинусной схожести:

На этом графике уже становится явно заметно, что в когорте с «наибольшей схожестью» все 38% ответов находятся в диапазоне от 0,5 до 0,55. То есть не смотря на их «схожесть» по нашей методике — Алиса, все‑таки, не сгенерировала ответов, которые по косинусной схожести приближались бы к 1.
При этом, половина ответов лежат в диапазоне от 0,05 до 0,25 косинусной схожести, с пиком в пределах от 0,15 до 0,20. Это говорит о том, что прям совсем уникальные ответы Алиса генерирует редко (всего 3% в диапазоне <0,1).
Посмотрим статистические значения:

-
Минимальное значение — 0,0764. Ответ, не имеющий почти никакого лексического пересечения с другими ответами.
-
Максимальное значение — 0,5234. Это ответ, который максимально похож на другие ответы в нашей выборке.
-
Среднее значение — 0,3251. Среднее лежит внутри диапазона когорты средней схожести, однако не отражает «типичный ответ», так как распределение косинусной схожести имеет очень сильную асимметрию: 50 «низких» ответов, 38 «высоких», и всего 12 «средних».
-
Медиана — 0,2006. Расположилась на границе между «низкой» и «средней» когортами. По медиане можно оценить, что «типичный» ответ скорее распределится в «низкой» или нижней границе «средней» когорты косинусной схожести.
-
Стандартное отклонение — 0, 1779. Стандартное отклонение показывает, что большая часть ответов не «скучена» вокруг среднего значения косинусной схожести (0,3251), а распределена на две крупные когорты с «высокой схожесть» и «низкой схожестью».
-
25й‑процентиль — 0,1613. Нижние 25% ответов имеют схожесть из самой низкой когорты и составляют нижнюю часть выборки.
-
75й‑процентиль — 0,5234. Верхние 25% ответов имеют схожесть из самой высокой когорты и составляют нижнюю четверть выборки.
Сводные данные по Алисе в коммерции:
|
Когорта косинусной схожести |
Диапазон |
ответов |
Пояснение |
|
Низкая |
<=0,2 |
50% |
Ответы слабо похожи на остальные. Разнообразны, уникальны, лексически сильно отличаются. |
|
Средняя |
0,2 — 0,5 |
12% |
Небольшая средняя группа ответов. Умеренное лексическое пересечение. |
|
Высокая |
>=0,5 |
38% |
Похожие лексически ответы. Значения сконцентрированы у значения косинусной схожести 0,5234. |
Вывод по Алисе в коммерции
Ответы Алисы по коммерческому запросу очень сильно поляризованы и не сосредоточены вокруг «среднего» значения косинусной схожести. Такое распределение говорит о нестабильности ответов Алисы, она с вероятностью в 50% выдает уникальный ответ, и с вероятностью 38% выдает перефразированные схожие ответы (но не повторяющиеся!). Максимальная косинусная схожесть в 0,5234 говорит о том, что по коммерческим запросам ответы Алисы никогда не повторяются «1 в 1», а всегда имеют высокое разнообразие.
Алиса.AI информационка
Напомним диапазоны когорт:
-
<=0.2 — очень низкая схожесть
-
0.2 — 0.5 — средняя схожесть
-
>0.5 — высокая схожесть.
Диаграмма показывает, что 78% ответов Алисы по инфо‑запросам в нашей выборке имеют косинусную схожесть более 0.5, 17% ответов совсем не похожи друг на друга, и 5% — имеют некоторую среднюю схожесть.
Посмотрим более детально на распределение косинусной схожести по инфо запросу:

Сразу заметно, что большая часть ответов Алисы сосредоточены в правой части шкалы косинусной схожести, что радикально отличается от коммерческого запроса.
Посмотрим статистические показатели:

● Минимальное значение — 0,1959. В статистике инфо запроса даже самый «уникальный» ответ лежит на границе со «средней» когортой схожести.
● Максимальное значение — 0,6659. Заметно выше, чем в коммерческом запросе. Хоть до идентичности (1,0) здесь тоже далеко, но максимальное значение в 0,6659 говорит о том, что часть ответов в информационке у Алисы являются «рерайтами» ответов с сохранением лексики.
● Среднее значение — 0,5241. Среднее значение косинусной схожести в инфо находится в «высокой» когорте, что существенно выше, нежели в коммерции.
● Медиана — 0,5843. Медиана немного выше среднего значения, что говорит о некотором «заваливании» статистики в левую часть диапазона, но и среднее и медиана находятся вы высокой когорте схожести.
● Стандартное отклонение — 0,1451. Стандартное отклонение показывает, косинусная схожесть в коммерции более скучена вокруг среднего арифметического.
● 25й‑процентиль — 0,5118.
● 75й‑процентиль — 0,6193. И 25й и 75й‑процентили попадают в высокую когорту. Это явный индикатор того, что большая часть ответов лежит в диапазоне когорты высокой косинусной схожести.
Сводные данные по Алисе в информационке:
|
Когорта косинусной схожести |
Диапазон |
ответов |
Пояснение |
|
Низкая |
<=0,2 |
5% |
Ответы очень слабо похожи друг на друга. |
|
Средняя |
0,2 — 0,5 |
17% |
Небольшая средняя группа ответов. Умеренное лексическое пересечение. |
|
Высокая |
>=0,5 |
78% |
Похожие лексически ответы. Значения сконцентрированы у значения косинусной схожести 0,6193. |
Вывод по Алисе в информационке
Ответы в Алисе на информационные запросы гораздо более стабильны и предсказуемы — почти 80% ответов имеют высокую лексическую схожесть. Шанс получить «выбивающийся» ответ по инфо‑запросу — около 5% (в коммерции было 50%!). Средняя когорта (17%) достаточно малочисленна, что говорит о существенном сдвиге косинусной схожести в ответах по инфо‑запросам в сторону «стабильности» (в правую часть оси).
Google AI Overview
Коммерческий запрос в Google AI Overview

79% ответов в ПС Google по коммерческому запросу имеют косинусную схожесть в средней когорте, а 21% — имеют совсем низкую косинусную схожесть. По коммерческому запросу Google не генерирует однотипные ответы, схожие по лексическому составу друг с другом.

На диаграмме видно, что большая часть ответов кучкуются вокруг косинусной схожести в диапазоне 0,2 — 0,3 — ближе к нижней границе средней когорты.
● Минимальное значение — 0,1413. Даже меньше, чем по коммерческому запросу у Алисы AI.
● Максимальное значение — 0,3046. Максимум косинусной схожести попадает в диапазон средней когорты.
● Среднее значение — 0,2356. Чуть выше нижней границы средней когорты, что говорит о существенном разнообразии ответов по коммерческому запросу в Google AI Overview.
● Медиана — 0,2377. Медиана практически совпадает со средним, в отличие от Алисы AI. Это говорит о том, что косинусная схожесть ответов сконцентрирована примерно в одной области.
● Стандартное отклонение — 0,0366. Очень низкий разброс косинусной схожести. Большинство ответов в нашей выборке по косинусной схожести лежат в очень узком диапазоне.
● 25й‑процентиль — 0,2124.
● 75й‑процентиль — 0,2674. Оба показателя по процентилям лежат в диапазоне средней когорты.
Выводы по коммерческому запросу в Google AI Overview
● Google AI Overview по коммерции не выдает схожих ответов, но все ответы умеренно уникализированы (находятся в когорте средней схожести).
● Модель более консервативна, здесь мы в большинстве данных не получили ни очень похожих ответов, ни очень уникальных. Но все таки 21% очень непохожих на другие ответов мы получили. То есть каждый 5 ответ на коммерческий запрос — будет уникальным. А вот одинаковые ответы здесь вы не получите.
● Разброс по схожести ответов очень низкий и не имеет поляризации, в отличие от Алисы AI, где косинусная схожесть ответов оказалась разбросана по краям шкалы.
Информационный запрос в Google AI Overview

100% ответов попали в среднюю когорту косинусной схожести. Нет повторяющихся (стабильных) ответов, как нет и уникальных.

Косинусная схожесть ответов лежит в середине диапазона с «завалом» в левую сторону. После значения 0,3 — резкий обвал схожести.

● Минимальное значение — 0,2045. На нижней границе средней когорты.
● Максимальное значение — 0,3262. Чуть выше, чем по коммерческому запросу, но существенно ниже, чем по инфо‑запросу в Алисе.
● Среднее значение — 0,2748. «Золотая середина» средней когорты схожести.
● Медиана — 0,2779. Как и в случае с коммерческим запросом — среднее и медиана находятся практически в одной точке, что говорит о низком разбросе схожести ответов.
● Стандартное отклонение — 0,0250. Об очень низком разбросе схожести говорит и стандартное отклонение.
● 25й‑процентиль — 0,2592.
● 75й‑процентиль — 0,2928. Оба показателя по процентилям лежат в диапазоне средней когорты.
Выводы по информационному запросу в Google AI Overview
● По инфо‑запросу Google AI overview демонстрирует стабильность по лексическому разнообразию ответов — нет ни повторяющихся ответов, ни уникальных. Все ответы имеют среднюю схожесть, но все‑таки отличаются друг от друга.
● Здесь также отсутствует полярность — схожесть всех ответов «скучкована» вокруг среднего значения.
● По информационному запросу Google AI Overview показывает более схожие ответы, нежели по коммерции. Но в сравнении с Алисой, где 78% ответов имели высокую схожесть, пытается перефразировать ответы и делает это постоянно.
Что в других нейросетях?
Не хочется перегружать статью диаграммами. Вы уже поняли, как мы считали данные и как (и какие) выводы делали на основе собранных данных. Поэтому просто приведем сравнительные таблицы всех нейросетей. Если кому‑то захочется посмотреть более подробные статистические данные по Perplexity, GROK или Gemini — поделимся скриншотами в комментариях.
Сводные выводы по всем нейросетям
Таблица распределения схожести коммерческих запросов по когортам
|
Когорта схожести |
Алиса AI |
Google AI Overview |
Perplexity |
GROK |
Gemini |
|
>=0.5 (высокая) |
38% |
0% |
0% |
0% |
0% |
|
0.2 — 0.5 (средняя) |
12% |
79% |
84% |
83% |
80% |
|
<=0.2 |
50% |
21% |
16% |
17% |
20% |
Нейросети из США ведут себя подозрительно схоже — практически все их ответы по коммерческому запросу находятся в когорте средней схожести, и это поведение достаточно стабильно и схоже с Google AI Overview. Алиса по коммерческим запросам ведет себя радикально иначе — в 50% ответов она генерирует уникальные, не похожие на другие ответы, в 38% — выдает практически одинаковые, и только Алиса показывает такой разброс схожести и непредсказуемость ответа, что говорит о крайней нестабильности схожести ответов в Алисе, в отличие от ее коллег.
Таблица распределения схожести информационным запросов по когортам
|
Когорта схожести |
Алиса AI |
Google AI Overview |
Perplexity |
GROK |
Gemini |
|
>=0.5 (высокая) |
78% |
0% |
0% |
0% |
0% |
|
0.2 — 0.5 (средняя) |
17% |
100% |
95% |
99% |
66% |
|
<=0.2 |
5% |
0% |
5% |
1% |
34% |
По информационному запросу коллеги Алисы по цеху показывают еще большую косинусную схожесть ответов, отличился только Gemini. Но и здесь Алиса показывает аномальное (в сравнении с другими ИИ) поведение в генерации ответов: по информационному запросу 78% ответов имеют очень высокую схожесть, что намекает на «заранее подготовленные ответы», в 17% ответы имеют среднюю схожесть (что‑то пытается перефразировать), и только 5% ответов совсем непохожи на другие.
Заключение
Напрашивается логичный вопрос, для всех, кто занимается GEO‑продвижением: сколько раз необходимо спросить нейросеть один и тот же запрос, чтобы бы убедиться в его стабильности.
В этой статье не было цели на него ответить, а была цель — посмотреть самим и показать вам насколько стабильны ответы нейросетей по коммерческим и информационным запросам.
Честно, мы не ожидали, что Алиса покажет такое нестабильное поведение по коммерческому запросу, и в то же время — такое стабильное по информационным, с перекосом в правую часть высокой когорты косинусной схожести.
Такое поведение очень отличает Алису от других нейросетей, и если смотреть на коммерческий запрос — такое поведение может существенно сказываться на статистике, которую оптимизаторы собирают в рамках работ по GEO. Зато в Алисе достаточно просто работать с инфо‑запросами, и если уж вы попали в область цитируемости или упоминаемости Алисы по информационному запросу — можно быть уверенным: 78% пользователей, которые будут искать ответы в Алисе по инфо‑запросу, вас точно заметят.
Такие дела. До новых встреч!
Будем рады критике.
Автор: Darya_Sarycheva


