- BrainTools - https://www.braintools.ru -

Можно ли доверять LLM как экспертам. Рассматриваю на примере ответов нейросетей с использованием поиска

Я всё чаще ловлю себя на том, что задаю вопрос непосредственно LLM, отказавшись от долгого поиска в интернете, изучения профильных форумов, отзывов и претензий. С одной стороны это гораздо быстрее, ответы выглядят логично [1], и гораздо легче согласиться с нейросетью, чем тратить силы и время. Но с другой стороны, насколько хорош совет модели? Почему это выбрала нейросеть, и как выбрала? Этим вопросом мало кто задаётся, поэтому я решил навскидку оценить экспертность решения.

Сценарий эксперимента: я выступаю в роли it-фрилансера и мне нужно выбрать облачный провайдер, который лучше всего подходит для маленького проекта. Опрошены основные бренды LLM с доступом к поиску.

Эксперимент

Для всех LLM был использован простой промпт:

Выступи в роли Senior-разработчика. Составь Топ-5 российских облачных провайдеров, которые лучше всего подходят для стартапов, малого бизнеса и индивидуальных IT-специалистов.

Модель (LLM)

Yandex Cloud

Timeweb Cloud

VK Cloud

Selectel

Cloud.ru [2]

Cloud4Y / Beget

Gemini [3]

1 место: Зрелый PaaS, Terraform, гранты.

2 место: Идеально для инди, понятный биллинг.

4 место: Гранты до 2 млн ₽, Big Data.

3 место: Отличное Bare-Metal, кэшбек 30%.

5 место: Линейка Evolution, легкий триал.

(Вне топа)

ChatGPT [4]

1 место: Аналог AWS/GCP, сильный K8s, но дорогой.

3 место: Дешевые VPS, простой UI, под MVP.

2 место: Лучший для ИИ и GPU на OpenStack.

4 место: Баланс цены и надежности, нужен DevOps.

5 место: Тяжелый Enterprise, сложный онбординг.

(Вне топа)

Алиса AI

2 место: Программа Boost, ИИ-стек (YandexGPT), аналитика.

1 место: Гранты до 1 млн ₽, ДЦ в ЕС/РФ, аппрув за 1 день.

(Вне топа)

3 место: Кэшбек 30%, упор на 1С и VMware, защита L3/L4.

(Вне топа)

4 место (Cloud4Y): Гранты без лимитов.

5 место (Beget): NVMe, простой UI.

GigaChat [5]

1 место: Крупная экосистема, бессерверные опции.

3 место: Управление без DevOps, быстрый старт.

2 место: Масштабируемый, купоны на рекламу VK.

4 место: Собственные ЦОДы, прозрачные тарифы.

(Вне топа)

5 место (Cloud4Y): Сертифицировано по ФЗ-152, фокус на compliance. 

DeepSeek [6]

4 место: Отличный ИИ-стек, но дорого и есть риск вендор-лока.

1 место: Максимум простоты, одобрение за 1 день.

2 место: Щедрый грант (2 млн ₽), K8s без вендор-лока.

3 место: Стабильность, но нужен стартовый капитал.

5 место: Заморозка цен на 3 года от инфляции.

(Вне топа)

Claude [7]

2 место: Лидер для AI-проектов, корп. сегмент.

1 место: Лучший ТСО (23 488 ₽), топ для MVP.

4 место: Позиции в медиа, грант на раунд А (2 млн ₽).

3 место: Зрелый DevOps-стек, K8s, гибридное облако.

(Вне топа)

5 место (Beget): Старт без бюрократии.

Итог (Консенсус)

1-2 место

(Ср. балл: 1.8)

1-2 место

(Ср. балл: 1.8)

3 место

(Ср. балл: 3.3)

4 место

(Ср. балл: 3.3)

5 место

(Ср. балл: 5.0)

Альтернативы

(Локальные топы у Алисы и Claude)

Как видно из таблицы, в целом нейросети совпадают в топ 5 провайдеров. Топ лучших по убыванию: Первое и второе место разделили Yandex Cloud и Timeweb Cloud, дальше VK Cloud, Selectel, Cloud.ru [2]. Российские LLM включили в рейтинг Cloud4Y и  Beget, зарубежные, кроме Claude, их проигнорировали.

Оригинальностью отличился Deepseek. А вот Алиса и, что забавно, Gigachat не включили в топ сберовский Cloud.ru [2]. Алиса на первое место поставила Timeweb Cloud, вместо родного Yandex Cloud.

Можно ли доверять LLM как экспертам. Рассматриваю на примере ответов нейросетей с использованием поиска - 1

Честно говоря, задавая роль Senior-разработчика, я не ждал чего-то невероятного. И да, форма подачи моделями топа-5 полностью соответствовала установленной роли, но только форма. LLM использовала красивые профессиональные термины, демонстрировала глубокое понимание и критическое мышление [8], но ни одна из нейросетей не повела себя как настоящий сеньор, не было встречных вопросов, уточнений (я понимаю, что это должен был сделать промпт, но эксперимент должен быть чистым), а самое главное, если очистить ответы от натянутой на обзор интернета псевдологики, то я получил сводку из первых пяти ссылок. То есть LLM, по крайней мере в режиме поиска, не продемонстрировала архитектурную экспертизу, а по сути зафиксировала успех seo-маркетологов, фактически срез медийного присутствия брендов.

Оценка интернет-источников

Судя по ссылкам базовые запросы моделей были “топ Х для малого бизнеса” “Лучшие Х  для малого бизнеса” и так далее. Ничем не хуже и не лучше человеческих поисковых запросов.

Попробуем оценить на какие источники опирались нейросети при формировании топа

LLM

Количество источников

ссылки

Алиса AI

13

tproger.ru [9], cloud4y.ru (startups) [10], severspace.ru [11], miran.ru [12], ng.kz [13] (наша газета)) [14], anti-malware.ru [15], computerra.ru [16], hightime.media [17], arsis.ru [18], timeweb.cloud [19], cnews.ru [20], byteguide.online [21], cloud4y.ru (best) [22]

GigaChat

5

cloud4y.ru (startups) [10], cnews.ru [20], serverspace.ru [23], klerk.ru [24], servernews.ru [25]

Gemini

7

tobiz.net [26], habr.com [27], tproger.ru [9], yandex.cloud [28], timeweb.cloud [19], miops.dev [29], cloud.vk.com [30]

ChatGPT

5 основных + 9 вспомогательных.= 14

cloud4y.ru (startups) [10], cnews.ru [20], reddit.com [31], cloud4y.ru (best) [22], cloudindex.ru [32]

Deepseek

112 (из них 4 основных)

ng.kz [13] (Наша газета) [33], comnews.ru [34], donpress.ru/ [35], cnews.ru [20]

Claude

21 (8 основных)

cloud4y.ru (startups) [10], tproger.ru [9], cnews.ru [20], cnews.ru [20], habr.com [27], tadviser.ru/ [36], miops.dev [29], tobiz.net [26]

Выводы:

  • Геотаргетинг (Алиса и DeepSeek):
    Поисковые движки Алисы и DeepSeek оказались наиболее чувствительны к метаданным пользователя (IP-адрес в Казахстане). Вместо стандартной выдачи они подмешали в контекст региональные источники (включая весьма забавную в смысле авторитетности “Нашу газету” из Костаная).

  • Уязвимость перед сильным контент-маркетингом:
    Обзорная статья в блоге провайдера Cloud4Y попала в поисковый пул четырех моделей из шести. при этом сам Cloud4Y в итоговый топ-5 не попал. Здесь да, модели проявили (возможно специально выученную) поправку на источник. Хотя Gigachat в результате заменил Cloud.ru [2] на Cloud4Y. То есть, не надо стесняться хвалить себя на своих сайтах. Нейросеть всё равно сделает поправку.

  • Разница в поисковых стратегиях (Глубина vs. Первоисточники):

    • DeepSeek ставит абсолютный рекорд по числу затронутых страниц (112 ссылок), используя тактику агрессивного парсинга с жесткой последующей фильтрацией.

    • Gemini в прямом ответе не указала ссылки на источники. При добавлении в промпт требования предоставить ссылки на источники и поисковые запросы, перечень выглядит гораздо беднее чем у других LLM. Есть подозрения, что Gemini частично генерирует их постфактум на основании ответа через обратную рационализацию. А в целом, у меня сложилось ощущение, что Google маскирует механизм выбора ссылок, не позволяя пользователям (и SEO-специалистам) через чат-бота понять, как именно алгоритм оценивает авторитетность источников.

    • Claude и ChatGPT ищут баланс, агрегируя профессиональные СМИ, блоги и живые дискуссии разработчиков (Хабр, Reddit).

Топ-10 источников, сформировавших мнение LLM

Для составления этого рейтинга были проанализировано использование моделями уникальных URL-адресов. Если страница встречалась в топе источников у конкретной LLM, это засчитывалось как упоминание.

Ссылка

Частотность

Влияние на итоговый ответ

1

cloud4y (startups) [10]

4 модели (ChatGPT, GigaChat, Алиса, Claude)

Максимальное. Главный виновник продвижения бренда Cloud4Y в итоговые рейтинги.

2

tproger.ru [9]

3 модели (Gemini, Алиса, Claude)

Высокое. Сформировал базовые профили провайдеров для малого бизнеса.

3

cnews.ru [20]

3 модели (ChatGPT, GigaChat, Claude)

Высокое. Источник цифр и позиций провайдеров в Enterprise/СМБ сегментах.

4

habr.com [27]

2 модели (Gemini, Claude)

Среднее. Привнес в ответы инженерный взгляд на DevEx и биллинг.

5

serverspace.ru [23]

2 модели (GigaChat, Алиса)

Среднее. Использовался для верификации состава Топ-5 игроков рынка.

6

timeweb.cloud [19]

2 модели (Gemini, Алиса)

Среднее. Позволил моделям взять данные о грантах и ДЦ

7

ng.kz [13] (Наша газета Костанай Казахстан)

2 модели (Алиса, DeepSeek)

Локальное. Исказило финансовые метрики в сторону тенге из-за геопривязки

8

tobiz.net [26]

2 модели (Gemini, Claude)

Низкое. Вспомогательный обзор для сверки позиций Selectel и Yandex.

9

miops.dev [29]

2 модели (Gemini, Claude)

Низкое. Нишевый технический блог, давший Claude информацию о DevOps-стеках.

10

cloud4y.ru (best) [22]

2 модели (ChatGPT, Алиса)

Среднее. Вторая SEO-статья того же вендора, закрепившая его доминирование в RAG.

Успех статей Cloud4Y в эксперименте демонстрирует, что SEO остается нашим всё для контент-менеджеров. Модель не понимает, хорош провайдер или плох, насколько ангажирован корпоративный сайт, она оценивает только релевантность текста в поисковой выдаче. 

Позиции провайдеров в рейтингах самих источников

Источник

Yandex

Timeweb

VK

Selectel

Cloud.ru [2]

Cloud4Y

Beget

Другие

cloud4y.ru (startups) [10]

1

5

2

4

3

6

tproger.ru [9]

5

3

4

2

1

cnews.ru [20]

1

2

5

3. Турбо, 4. K2 Cloud

habr.com [27]

1

3

2

7

4

6

5

serverspace.ru [23]

4

5

2

3

1. Serverspace

timeweb.cloud [19]

1

2

4

3

5. Рег.облако

ng.kz [13] (Наша газета Костанай Казахстан)

1

4

2

3

5

tobiz.net [26]

1

3

4

2

5. Rostelecom Cloud

cloud4y.ru (best) [22]

2

7

5

3

1

6

4. MWS (MTS)

Интересно, как LLM обрабатывают конфликт [37] интересов. Несмотря на то, что SEO-статьи Cloud4Y попали в выборку 4 из 6 моделей, в итоговый консенсус-топ этот провайдер не вошел (только на 4-5 места у локальных моделей). То же самое с Serverspace. Две гипотезы: 

  1. Этим статьям не хватило подтверждения из других источников.

  2. Модели (особенно зарубежные ChatGPT, Claude, Gemini) способны распознавать ангажированность корпоративных блогов (сомнительно).

Полагаю, что Cloud4Y не попал в топ-5 ИИ только из-за малого присутствия в общем медийном поле. При усреднении его хорошие статьи проиграли общей массе. 

А вот если завтра условный ноунейм-провайдер наймет мощную команду SEO-специалистов и закупит ссылки на агрегаторах, LLM с вероятностью 90% начнут рекомендовать его как надежное Enterprise-решение. Нейросети не беспристрастные судьи, а простые ретрансляторы наиболее агрессивной рекламной кампании в индексах поисковиков.

Матрица корреляции ответов LLM с оригинальными рейтингами в статьях

Формула: Состав (С)  % — доля угаданных участников / Позиция (П) % — доля угаданных мест

Можно ли доверять LLM как экспертам. Рассматриваю на примере ответов нейросетей с использованием поиска - 2

Обратите внимание [38] на огромный разрыв между параметрами «С» (Состав) и «П» (Позиция). В большинстве случаев совпадение состава составляет 80–100% (модели берут тех же провайдеров, что и в статье). Но совпадение позиций низкое — максимум 60%. То есть LLM используют интернет-источники как основу, но ранжируют по собственному алгоритму. Прямого копирования рейтинга из источника  я не обнаружил. Как работает алгоритм фактического ранжирования сказать нельзя. Учитывая, что при нескольких запросах порядок и состав провайдеров в топе несущественно меняется, полагаю ключевое, это статистическое усреднение + случайность [39].

А вот теперь ключевой расчёт, для чего я и затеял всю эту суету, беру топ источников с рейтингами, считаю сводный и сравниваю с тем, что дали LLM:

Место

Рейтинг топа источников

Рейтинг ИИ 

1

VK Cloud

Yandex Cloud

2

Yandex Cloud

Timeweb Cloud

3

Timeweb Cloud

VK Cloud

4

Selectel

Selectel

5

Cloud.ru

Cloud.ru

И мы видим, что итоговые рейтинги ИИ и источников практически полностью совпадают. Почему VK Cloud модели переместили на третье место? Две гипотезы: 

  1. Нейросети выучили, что Yandex Cloud — крупнейший игрок в РФ и опираясь на свои веса они передвигают его вверх (сомнительно). 

  2. Timeweb Cloud лучше позиционировал себя как провайдера для малого бизнеса и стартапов и за счет этого вышел в лидеры. 

Вторая гипотеза не отрицает того, что возможно VK Cloud больше позиционирует себя как enterprise бизнес, что помешало ему в убедить LLM в своей полезности.

Заключение

В нашем случае мы получили от LLM не больше, чем если бы потратили на самостоятельный поиск пять минут. Фактически, модели дали текущий срез топовых ссылок из поисковиков по банальным запросам с легким смещением по промпту. Единственное, произошла небольшая корректировка важности критериев на более подходящие малому бизнесу. 

В статье я оценивал только как нейросети формируют свои ответы при запросе рекомендаций. Насколько экспертны модели в этом вопросе? Думаю не больше, чем статьи, которые они нагуглили.

Так что SEO живее всех живых, а на текущий момент GEO требует лишь изменение формы подачи. Если SEO-шники обманывали алгоритмы гугла и яндекса, то для них ничего не поменялось и с появлением LLM.

P.S. По существу вопроса о лучшем провайдере я ничего не скажу (из всех провайдеров лишь однажды пользовался услугами TimeWeb). Статья не задумывалась как реклама, но обвинений в ней не избежать. Поэтому если какая-то компания хочет оценить, как её видит LLM, готов к сотрудничеству.

Автор: Kamil_GR

Источник [40]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/31236

URLs in this post:

[1] логично: http://www.braintools.ru/article/7640

[2] Cloud.ru: http://Cloud.ru

[3] Gemini: https://gemini.google.com/share/f0d413ba9ed2

[4] ChatGPT: https://chatgpt.com/share/6a1d5b91-aba0-83eb-a1f8-04ed4ff28dd2

[5] GigaChat: https://giga.chat/link/gcsuNJzHyh

[6] DeepSeek: https://chat.deepseek.com/share/sxjybjf1pn2unpcrkm

[7] Claude: https://claude.ai/share/860f3e69-61a0-4b8b-9d5e-5568fc82066d

[8] мышление: http://www.braintools.ru/thinking

[9] tproger.ru: http://tproger.ru

[10] cloud4y.ru (startups): https://www.cloud4y.ru/blog/cloud-providers-rating-startups-smb-2026/

[11] severspace.ru: http://severspace.ru

[12] miran.ru: http://miran.ru

[13] ng.kz: http://ng.kz

[14] (наша газета)): https://archive.ng.kz/modules/news/article.php?storyid=59219

[15] anti-malware.ru: http://anti-malware.ru

[16] computerra.ru: http://computerra.ru

[17] hightime.media: http://hightime.media

[18] arsis.ru: http://arsis.ru

[19] timeweb.cloud: http://timeweb.cloud

[20] cnews.ru: http://cnews.ru

[21] byteguide.online: http://byteguide.online

[22] cloud4y.ru (best): https://www.cloud4y.ru/blog/best-cloud-providers-russia-business/

[23] serverspace.ru: http://serverspace.ru

[24] klerk.ru: http://klerk.ru

[25] servernews.ru: http://servernews.ru

[26] tobiz.net: http://tobiz.net

[27] habr.com: http://habr.com

[28] yandex.cloud: https://yandex.cloud

[29] miops.dev: http://miops.dev

[30] cloud.vk.com: http://cloud.vk.com

[31] reddit.com: http://reddit.com

[32] cloudindex.ru: http://cloudindex.ru

[33] (Наша газета): https://ng.kz/news/article-59219

[34] comnews.ru: http://comnews.ru

[35] donpress.ru/: https://donpress.ru/rossijskie-oblaka-na-podjome-chto-predlagajut-otechestvennye-oblachnye-platformy-v-2025-godu/

[36] tadviser.ru/: https://www.tadviser.ru/index.php/%D0%9A%D0%BE%D0%BC%D0%BF%D0%B0%D0%BD%D0%B8%D1%8F:Timeweb_Cloud_(%D0%A2%D0%B0%D0%B9%D0%BC%D0%B2%D1%8D%D0%B1.%D0%9A%D0%BB%D0%B0%D1%83%D0%B4)

[37] конфликт: http://www.braintools.ru/article/7708

[38] внимание: http://www.braintools.ru/article/7595

[39] случайность: http://www.braintools.ru/article/6560

[40] Источник: https://habr.com/ru/articles/1043328/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1043328

www.BrainTools.ru

Rambler's Top100