- BrainTools - https://www.braintools.ru -

Меня зовут Дарья Сарычева, эту статью мы подготовили вместе с моим коллегой Андреем Саниным, с которым вместе работаем в агентстве «Альтера» в Санкт‑Петербурге.
В середине прошлого года наше агентство начало изучать способы GEO‑продвижение через нейросети. Для оказания услуги GEO нам очень не хватало инструмента, который бы позволял отслеживать динамику ответов генеративных моделей.
Изучив опыт [1] коллег и доступные решения, мы разработали собственный сервис для снятия ответов ИИ. С его помощью мы фиксируем:
текст ответа
упоминания брендов, товаров, компаний
цитаты и ссылки на источники
тональность упоминаний
и др.
В ходе тестов на реальных задачах мы столкнулись с неприятной проблемой, о которой говорят редко, но которая критична для GEO: ответы одной и той же нейросети на один и тот же промпт могут кардинально различаться при каждом запросе. Меняется не только формулировка, но и набор цитат, и структура упоминаний.
Такая вариативность делает невозможными долгосрочные выводы, потому что мы работаем с «черным ящиком».
Например, если бренд присутствовал в ответе неделю назад, а сегодня его нет — это следствие реального ухудшения позиций, или просто случайный разброс?
Обновление отчета через полчаса часто меняет картину непредсказуемо: может стать как лучше, так и хуже.
В условиях, когда ситуация с упоминаниями выглядит вне контроля, мы с Андреем решили провести эксперимент и измерить, насколько в принципе совпадают ответы нейросетей по одному и тому же запросу.
Сравнить схожесть ответов нейросетей на одни и те же запросы в течение трех недель, получая ответы три раза в день по одному и тому же запросу в каждой нейросети, чтобы выработать методику сравнения ответов нейросетей и оценить их стабильность.
Чтобы получить более наглядные и полезные данные мы решили спрашивать каждую нейросеть 100 раз по двум запросам:
Один запрос — имеющий более высокую коммерциализацию, с интентом выбора компании,
Второй — информационный, с интентом поиска дополнительной (не коммерческой) информации без явного намека на поиск компании/организации/услуги/товара.
Эксперимент решили проводить на медицинской тематике. Такой выбор обусловлен тем, что агентство «Альтера» специализируется на медицинских проектах и накопила значительную экспертизу в данной области.
Задача была простой: легко и желательно быстро (и не вручную) собрать только тексты ответов нейросетей, без сводных таблиц и отчётов, которые формирует наш собственный сервис.
Использовали такой стэк:
API нашего парсера для получения ответов;
Google Sheets — как база для хранения;
n8n — для автоматизации сбора по расписанию и записи в таблицу.
Для первого эксперимента (чтоб не закопаться в данных и выработать методику) мы решили ограничиться следующими нейросетями:
Яндекс AI ответы (на поиске Яндекса)
Google AI Overview (на поиске Google)
Perplexity
Grok
Gemini
Для чистоты эксперимента:
Брали разные прокси с ГЕО Санкт‑Петербурга для получения каждого ответа;
Капчи отправляли на решение через серверные сервисы;
Эмулировали визиты в браузере без кук, без сгенерированных fingerprint’ов, без нагула истории.
Каждый ответ нейросети отдавали как «новому» пользователю.
!!! Ответы от GROK и Gemini забирали через API, добавили их из «практического» интереса, остальные нейронки – через эмуляцию браузера.
Настроили, запустили и сели наблюдать, как таблицы ежедневно пополняются ответами, а вот как их сравнивать — пока понимания не было.

Спустя три недели у нас было 1000 ответов от 5 нейросетей — по сотне на каждый тип запроса. Осталось придумать, как эти ответы сравнивать.
Сначала мы попробовали сравнивать ответы «через нейросеть» — взять один эталонный ответ и оценить остальные относительно него. Но данные получились нерепрезентативными.
Стало очевидно: нужно сравнивать каждый ответ с каждым и построить матрицу схожести 100×100. Но делать это снова через нейросеть мы не стали (но попробовали):
результаты зависели от модели,
при повторных запросах сравнить и оценить схожесть от 0 до 1 — результаты отличались.
Мы понимали, что близки к решению, но используем не те инструменты. И решили «мыслить как нейросеть». А они сравнивают тексты не по тексту, а по векторам. Это база для ранжирования миллиардов документов и в обычном поиске.
Векторизация и косинусная схожесть
Мы преобразовали все тексты в векторы через TF‑IDF (Term Frequency — Inverse Document Frequency): каждый текст раскладывается на уникальные слова, для каждого слова считается его вес в документе. Это позволило перейти от «непонятной теории» к строгой математической модели.
Что делать с векторами дальше? Сравнивать их. Самый популярный и эффективный способ — косинусная схожесть (cosine similarity). Если представить каждый текст как вектор в пространстве с длиной и направлением, то косинусная схожесть — это косинус угла между векторами.

Чем меньше угол (и чем ближе косинус к 1), тем более похожи тексты. Косинус близок к 0 — тексты далеки друг от друга.
Для расчётов мы использовали:
VS Code + Python
pandas — для работы с CSV
scikit‑learn — для TF‑IDF (TfidfVectorizer) и косинусной схожести (cosine_similarity)
numpy — чтобы удалить диагональ (сравнение с самим собой) и посчитать среднюю схожесть каждого ответа с остальными.
Написали скрипт, и… три недели ждать не пришлось. Уже через несколько минут все данные были у нас на руках.
Для адекватной оценки косинусной схожести текстов мы разбили значения на три когорты:
0 — 0,2 — низкая схожесть: ответы не пересекаются по смыслу, текст существенно отличается.
0,2 — 0,5 — средняя схожесть: ответы частично пересекаются, но есть заметные различия.
0,5 — 1 — высокая схожесть: ответы семантически близки, вероятно, перефразировки или повторяют [2] одни и те же факты.
Сперва — важное уточнение: наша методика оценивает лексическую схожесть — тексты близки по набору слов, но не обязательно по смыслу. Синонимы («автомобиль» вместо «машина») не дают вклада в схожесть, хотя смысл может быть идентичен. Мы при анализе отталкивались от векторов по TF‑IDF, которые не оценивают смысл, но оценивают лексику.
Пример:
«Автомобиль едет стремительно»
«Машина передвигается молниеносно»
Семантически фразы одинаковы, лексически — ни одного общего слова. Наша косинусная схожесть для них равна 0.
Мы зафиксировали два ключевых порога.
Первый порог — 0,2 (угол примерно 78°) — зона статистического шума. В TF‑IDF‑векторах случайные пересечения по стоп‑словам редко дают значение выше 0,2. Если косинус ниже — тексты практически не пересекаются по лексике.
Второй порог — 0,5 (угол 60°) — взяли за рубеж, после которого общая лексика начинает доминировать над случайной. Для TF‑IDF это означает, что не менее половины значимых слов в текстах совпадают. Всё, что выше 0,5, мы относим к высокой лексической стабильности (ответы держатся на одних терминах и фактах), а ниже — к расхождениям в формулировках или темах.
Таким образом, мы разбили шкалу на три когорты, чтобы наглядно отделить шум от смыслового ядра ответов, и выделить диапазон «Средней схожести» в пределах 0,2 — 0,5. Когда мы придумывали методику — мы еще не знали, какие цифры получим, но нас успокаивало то, что мы проверим все ИИ по одной и той же методике, что наверняка покажет результаты — либо похожие, либо различные.
Кстати, вскоре планируем провести дополнительный эксперимент, где учтем не только лексическую, но и семантическую близость.
А теперь — к результатам.
На диаграмме представлено процентное распределение ответов Алисы на коммерческий запрос по когортам косинусной схожести, где:
<=0.2 — очень низкая схожесть
0.2 — 0.5 — средняя схожесть
>0.5 — высокая схожесть.
Диаграмма показывает, что только 38% ответов Алисы по коммерции в нашей выборке имеют косинусную схожесть более 0.5, 50% ответов совсем не похожи друг на друга, и 12% — имеют некоторую схожесть.
Посмотрим более детально на распределение косинусной схожести:

На этом графике уже становится явно заметно, что в когорте с «наибольшей схожестью» все 38% ответов находятся в диапазоне от 0,5 до 0,55. То есть не смотря на их «схожесть» по нашей методике — Алиса, все‑таки, не сгенерировала ответов, которые по косинусной схожести приближались бы к 1.
При этом, половина ответов лежат в диапазоне от 0,05 до 0,25 косинусной схожести, с пиком в пределах от 0,15 до 0,20. Это говорит о том, что прям совсем уникальные ответы Алиса генерирует редко (всего 3% в диапазоне <0,1).
Посмотрим статистические значения:

Минимальное значение — 0,0764. Ответ, не имеющий почти никакого лексического пересечения с другими ответами.
Максимальное значение — 0,5234. Это ответ, который максимально похож на другие ответы в нашей выборке.
Среднее значение — 0,3251. Среднее лежит внутри диапазона когорты средней схожести, однако не отражает «типичный ответ», так как распределение косинусной схожести имеет очень сильную асимметрию: 50 «низких» ответов, 38 «высоких», и всего 12 «средних».
Медиана — 0,2006. Расположилась на границе между «низкой» и «средней» когортами. По медиане можно оценить, что «типичный» ответ скорее распределится в «низкой» или нижней границе «средней» когорты косинусной схожести.
Стандартное отклонение — 0, 1779. Стандартное отклонение показывает, что большая часть ответов не «скучена» вокруг среднего значения косинусной схожести (0,3251), а распределена на две крупные когорты с «высокой схожесть» и «низкой схожестью».
25й‑процентиль — 0,1613. Нижние 25% ответов имеют схожесть из самой низкой когорты и составляют нижнюю часть выборки.
75й‑процентиль — 0,5234. Верхние 25% ответов имеют схожесть из самой высокой когорты и составляют нижнюю четверть выборки.
Сводные данные по Алисе в коммерции:
|
Когорта косинусной схожести |
Диапазон |
ответов |
Пояснение |
|
Низкая |
<=0,2 |
50% |
Ответы слабо похожи на остальные. Разнообразны, уникальны, лексически сильно отличаются. |
|
Средняя |
0,2 — 0,5 |
12% |
Небольшая средняя группа ответов. Умеренное лексическое пересечение. |
|
Высокая |
>=0,5 |
38% |
Похожие лексически ответы. Значения сконцентрированы у значения косинусной схожести 0,5234. |
Ответы Алисы по коммерческому запросу очень сильно поляризованы и не сосредоточены вокруг «среднего» значения косинусной схожести. Такое распределение говорит о нестабильности ответов Алисы, она с вероятностью в 50% выдает уникальный ответ, и с вероятностью 38% выдает перефразированные схожие ответы (но не повторяющиеся!). Максимальная косинусная схожесть в 0,5234 говорит о том, что по коммерческим запросам ответы Алисы никогда не повторяются «1 в 1», а всегда имеют высокое разнообразие.
Напомним диапазоны когорт:
<=0.2 — очень низкая схожесть
0.2 — 0.5 — средняя схожесть
>0.5 — высокая схожесть.
Диаграмма показывает, что 78% ответов Алисы по инфо‑запросам в нашей выборке имеют косинусную схожесть более 0.5, 17% ответов совсем не похожи друг на друга, и 5% — имеют некоторую среднюю схожесть.
Посмотрим более детально на распределение косинусной схожести по инфо запросу:

Сразу заметно, что большая часть ответов Алисы сосредоточены в правой части шкалы косинусной схожести, что радикально отличается от коммерческого запроса.
Посмотрим статистические показатели:

● Минимальное значение — 0,1959. В статистике инфо запроса даже самый «уникальный» ответ лежит на границе со «средней» когортой схожести.
● Максимальное значение — 0,6659. Заметно выше, чем в коммерческом запросе. Хоть до идентичности (1,0) здесь тоже далеко, но максимальное значение в 0,6659 говорит о том, что часть ответов в информационке у Алисы являются «рерайтами» ответов с сохранением лексики.
● Среднее значение — 0,5241. Среднее значение косинусной схожести в инфо находится в «высокой» когорте, что существенно выше, нежели в коммерции.
● Медиана — 0,5843. Медиана немного выше среднего значения, что говорит о некотором «заваливании» статистики в левую часть диапазона, но и среднее и медиана находятся вы высокой когорте схожести.
● Стандартное отклонение — 0,1451. Стандартное отклонение показывает, косинусная схожесть в коммерции более скучена вокруг среднего арифметического.
● 25й‑процентиль — 0,5118.
● 75й‑процентиль — 0,6193. И 25й и 75й‑процентили попадают в высокую когорту. Это явный индикатор того, что большая часть ответов лежит в диапазоне когорты высокой косинусной схожести.
Сводные данные по Алисе в информационке:
|
Когорта косинусной схожести |
Диапазон |
ответов |
Пояснение |
|
Низкая |
<=0,2 |
5% |
Ответы очень слабо похожи друг на друга. |
|
Средняя |
0,2 — 0,5 |
17% |
Небольшая средняя группа ответов. Умеренное лексическое пересечение. |
|
Высокая |
>=0,5 |
78% |
Похожие лексически ответы. Значения сконцентрированы у значения косинусной схожести 0,6193. |
Ответы в Алисе на информационные запросы гораздо более стабильны и предсказуемы — почти 80% ответов имеют высокую лексическую схожесть. Шанс получить «выбивающийся» ответ по инфо‑запросу — около 5% (в коммерции было 50%!). Средняя когорта (17%) достаточно малочисленна, что говорит о существенном сдвиге косинусной схожести в ответах по инфо‑запросам в сторону «стабильности» (в правую часть оси).

79% ответов в ПС Google по коммерческому запросу имеют косинусную схожесть в средней когорте, а 21% — имеют совсем низкую косинусную схожесть. По коммерческому запросу Google не генерирует однотипные ответы, схожие по лексическому составу друг с другом.

На диаграмме видно, что большая часть ответов кучкуются вокруг косинусной схожести в диапазоне 0,2 — 0,3 — ближе к нижней границе средней когорты.
● Минимальное значение — 0,1413. Даже меньше, чем по коммерческому запросу у Алисы AI.
● Максимальное значение — 0,3046. Максимум косинусной схожести попадает в диапазон средней когорты.
● Среднее значение — 0,2356. Чуть выше нижней границы средней когорты, что говорит о существенном разнообразии ответов по коммерческому запросу в Google AI Overview.
● Медиана — 0,2377. Медиана практически совпадает со средним, в отличие от Алисы AI. Это говорит о том, что косинусная схожесть ответов сконцентрирована примерно в одной области.
● Стандартное отклонение — 0,0366. Очень низкий разброс косинусной схожести. Большинство ответов в нашей выборке по косинусной схожести лежат в очень узком диапазоне.
● 25й‑процентиль — 0,2124.
● 75й‑процентиль — 0,2674. Оба показателя по процентилям лежат в диапазоне средней когорты.
Выводы по коммерческому запросу в Google AI Overview
● Google AI Overview по коммерции не выдает схожих ответов, но все ответы умеренно уникализированы (находятся в когорте средней схожести).
● Модель более консервативна, здесь мы в большинстве данных не получили ни очень похожих ответов, ни очень уникальных. Но все таки 21% очень непохожих на другие ответов мы получили. То есть каждый 5 ответ на коммерческий запрос — будет уникальным. А вот одинаковые ответы здесь вы не получите.
● Разброс по схожести ответов очень низкий и не имеет поляризации, в отличие от Алисы AI, где косинусная схожесть ответов оказалась разбросана по краям шкалы.

100% ответов попали в среднюю когорту косинусной схожести. Нет повторяющихся (стабильных) ответов, как нет и уникальных.

Косинусная схожесть ответов лежит в середине диапазона с «завалом» в левую сторону. После значения 0,3 — резкий обвал схожести.

● Минимальное значение — 0,2045. На нижней границе средней когорты.
● Максимальное значение — 0,3262. Чуть выше, чем по коммерческому запросу, но существенно ниже, чем по инфо‑запросу в Алисе.
● Среднее значение — 0,2748. «Золотая середина» средней когорты схожести.
● Медиана — 0,2779. Как и в случае с коммерческим запросом — среднее и медиана находятся практически в одной точке, что говорит о низком разбросе схожести ответов.
● Стандартное отклонение — 0,0250. Об очень низком разбросе схожести говорит и стандартное отклонение.
● 25й‑процентиль — 0,2592.
● 75й‑процентиль — 0,2928. Оба показателя по процентилям лежат в диапазоне средней когорты.
● По инфо‑запросу Google AI overview демонстрирует стабильность по лексическому разнообразию ответов — нет ни повторяющихся ответов, ни уникальных. Все ответы имеют среднюю схожесть, но все‑таки отличаются друг от друга.
● Здесь также отсутствует полярность — схожесть всех ответов «скучкована» вокруг среднего значения.
● По информационному запросу Google AI Overview показывает более схожие ответы, нежели по коммерции. Но в сравнении с Алисой, где 78% ответов имели высокую схожесть, пытается перефразировать ответы и делает это постоянно.
Не хочется перегружать статью диаграммами. Вы уже поняли, как мы считали данные и как (и какие) выводы делали на основе собранных данных. Поэтому просто приведем сравнительные таблицы всех нейросетей. Если кому‑то захочется посмотреть более подробные статистические данные по Perplexity, GROK или Gemini — поделимся скриншотами в комментариях.
|
Когорта схожести |
Алиса AI |
Google AI Overview |
Perplexity |
GROK |
Gemini |
|
>=0.5 (высокая) |
38% |
0% |
0% |
0% |
0% |
|
0.2 — 0.5 (средняя) |
12% |
79% |
84% |
83% |
80% |
|
<=0.2 |
50% |
21% |
16% |
17% |
20% |
Нейросети из США ведут себя подозрительно схоже — практически все их ответы по коммерческому запросу находятся в когорте средней схожести, и это поведение [3] достаточно стабильно и схоже с Google AI Overview. Алиса по коммерческим запросам ведет себя радикально иначе — в 50% ответов она генерирует уникальные, не похожие на другие ответы, в 38% — выдает практически одинаковые, и только Алиса показывает такой разброс схожести и непредсказуемость ответа, что говорит о крайней нестабильности схожести ответов в Алисе, в отличие от ее коллег.
|
Когорта схожести |
Алиса AI |
Google AI Overview |
Perplexity |
GROK |
Gemini |
|
>=0.5 (высокая) |
78% |
0% |
0% |
0% |
0% |
|
0.2 — 0.5 (средняя) |
17% |
100% |
95% |
99% |
66% |
|
<=0.2 |
5% |
0% |
5% |
1% |
34% |
По информационному запросу коллеги Алисы по цеху показывают еще большую косинусную схожесть ответов, отличился только Gemini. Но и здесь Алиса показывает аномальное (в сравнении с другими ИИ) поведение [4] в генерации ответов: по информационному запросу 78% ответов имеют очень высокую схожесть, что намекает на «заранее подготовленные ответы», в 17% ответы имеют среднюю схожесть (что‑то пытается перефразировать), и только 5% ответов совсем непохожи на другие.
Напрашивается логичный вопрос, для всех, кто занимается GEO‑продвижением: сколько раз необходимо спросить нейросеть один и тот же запрос, чтобы бы убедиться в его стабильности.
В этой статье не было цели на него ответить, а была цель — посмотреть самим и показать вам насколько стабильны ответы нейросетей по коммерческим и информационным запросам.
Честно, мы не ожидали, что Алиса покажет такое нестабильное поведение по коммерческому запросу, и в то же время — такое стабильное по информационным, с перекосом в правую часть высокой когорты косинусной схожести.
Такое поведение очень отличает Алису от других нейросетей, и если смотреть на коммерческий запрос — такое поведение может существенно сказываться на статистике, которую оптимизаторы собирают в рамках работ по GEO. Зато в Алисе достаточно просто работать с инфо‑запросами, и если уж вы попали в область цитируемости или упоминаемости Алисы по информационному запросу — можно быть уверенным: 78% пользователей, которые будут искать ответы в Алисе по инфо‑запросу, вас точно заметят.
Такие дела. До новых встреч!
Будем рады критике.
Автор: Darya_Sarycheva
Источник [5]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/32254
URLs in this post:
[1] опыт: http://www.braintools.ru/article/6952
[2] повторяют: http://www.braintools.ru/article/4012
[3] поведение: http://www.braintools.ru/article/9372
[4] поведение: http://www.braintools.ru/article/5593
[5] Источник: https://habr.com/ru/articles/1051846/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1051846
Нажмите здесь для печати.