Хайп vs реальность: что tech-медиа пишут об ИИ и кто реально лучший в 2025?. anthropic.. anthropic. chatgpt.. anthropic. chatgpt. Claude.. anthropic. chatgpt. Claude. gemini.. anthropic. chatgpt. Claude. gemini. llm.. anthropic. chatgpt. Claude. gemini. llm. Natural Language Processing.. anthropic. chatgpt. Claude. gemini. llm. Natural Language Processing. openai.. anthropic. chatgpt. Claude. gemini. llm. Natural Language Processing. openai. большие языковые модели.. anthropic. chatgpt. Claude. gemini. llm. Natural Language Processing. openai. большие языковые модели. искусственный интеллект.. anthropic. chatgpt. Claude. gemini. llm. Natural Language Processing. openai. большие языковые модели. искусственный интеллект. Исследования и прогнозы в IT.. anthropic. chatgpt. Claude. gemini. llm. Natural Language Processing. openai. большие языковые модели. искусственный интеллект. Исследования и прогнозы в IT. Машинное обучение.. anthropic. chatgpt. Claude. gemini. llm. Natural Language Processing. openai. большие языковые модели. искусственный интеллект. Исследования и прогнозы в IT. Машинное обучение. научно-популярное.. anthropic. chatgpt. Claude. gemini. llm. Natural Language Processing. openai. большие языковые модели. искусственный интеллект. Исследования и прогнозы в IT. Машинное обучение. научно-популярное. нейросети.

За последний месяц я детально отслеживал каждую статью об искусственном интеллекте в ведущих западных tech-изданиях. 200 статей из TechCrunch, VentureBeat и MIT Technology Review за 26 дней — в среднем почти 8 новостей об ИИ каждый день. Цель эксперимента была проста: понять, совпадает ли то, о чём громче всего кричат медиа, с реальными возможностями ИИ-моделей.

Спойлер: не совпадает. И разрыв между медийным шумом и реальностью оказался весьма значительным.

Методология исследования

Я мониторил три ключевых источника tech-новостей:

  • TechCrunch — крупнейшее издание о стартапах и технологиях

  • VentureBeat — фокус на enterprise-решениях и ИИ

  • MIT Technology Review — академический взгляд на технологии

Из всего потока новостей отбирались только статьи, связанные с искусственным интеллектом — упоминание компаний-разработчиков, конкретных моделей, AI-продуктов или технологий машинного обучения. Затем я анализировал:

  • Частоту упоминаний компаний

  • Частоту упоминаний конкретных моделей

  • Популярные темы и тренды

  • Распределение по источникам

Для сравнения с реальностью использовал свежие данные из Chatbot Arena Leaderboard — одного из самых авторитетных независимых рейтингов ИИ-моделей, основанного на миллионах реальных пользовательских оценок.

Хайп vs реальность: что tech-медиа пишут об ИИ и кто реально лучший в 2025? - 1

Что пишут медиа: результаты анализа

Распределение по источникам

Первое, что бросается в глаза — TechCrunch доминирует в освещении ИИ-тематики:

Издание

Статей

Процент

TechCrunch

141

70.5%

VentureBeat

35

17.5%

MIT Technology Review

23

11.5%

TechCrunch публикует 7 из 10 статей об ИИ среди этих трёх изданий. Это говорит о том, что издание делает сильный акцент на AI как на главный технологический тренд.

ТОП компаний по упоминаниям в медиа

А вот кого чаще всего упоминают журналисты:

Место

Компания

Упоминаний

% от статей

1

OpenAI

28

14.0%

2

Google

10

5.0%

3

Meta

10

5.0%

4

Microsoft

8

4.0%

5

Nvidia

8

4.0%

6

Apple

6

3.0%

7

Amazon

6

3.0%

8

Anthropic

3

1.5%

9

Perplexity

3

1.5%

OpenAI — безоговорочный лидер медийного пространства, упоминается в каждой 7-й статье. Это почти в 3 раза чаще, чем Google или Meta. Anthropic, создатель Claude, получает всего 3 упоминания — в 9 раз меньше, чем OpenAI.

ТОП моделей по упоминаниям

Если смотреть на конкретные модели:

Место

Модель

Упоминаний

% от статей

1

ChatGPT

13

6.5%

2

Gemini

4

2.0%

3

Copilot

3

1.5%

4

o1

3

1.5%

5

Sora

2

1.0%

ChatGPT остаётся самым узнаваемым брендом в ИИ — о нём пишут в 3 раза чаще, чем о Gemini. Claude упоминается всего 1 раз за весь период наблюдения.

О чём пишут: популярные темы 2025

Анализ заголовков и категорий показал следующие тренды:

Тема

Статей

%

Бизнес и инвестиции

17

8.5%

AI Agents

11

5.5%

Coding / Программирование

7

3.5%

Поиск

7

3.5%

Генерация видео

6

3.0%

Open Source

6

3.0%

Reasoning / Мышление

4

2.0%

Роботы

4

2.0%

Самая популярная тема — деньги. Фандрайзинги, оце��ки стоимости компаний, инвестиционные раунды. AI Agents на втором месте — тема автономных агентов набирает обороты. Интересно, что про генерацию изображений писали всего 2 раза — хайп спал, это уже commodity.

Реальные возможности: что показывают тесты LMArena

Text (Текстовые задачи)

ТОП-10 моделей для работы с текстом

Оценка ИИ по данным ресурса LMArena в категории Text

Оценка ИИ по данным ресурса LMArena в категории Text

Место

Модель

Score

Голосов

1

Gemini 2.5 Pro

1452

61 259

1

Claude Opus 4.1 (thinking)

1448

27 970

1

Claude Sonnet 4.5 (thinking)

1448

12 313

2

GPT-4.5 Preview

1442

14 644

3

Claude Opus 4.1

1439

40 413

3

ChatGPT-4o Latest

1438

46 917

4

GPT-5 High

1436

29 552

2

Claude Sonnet 4.5

1436

5 483

4

o3

1435

57 953

4

Qwen3-max Preview

1433

24 457

Тройка лидеров: Gemini 2.5 Pro и две версии Claude (Opus 4.1 и Sonnet 4.5) с режимом мышления. Разрыв минимальный — всё решают последние проценты качества.

WebDev (Веб-разработка)

Для разработчиков особенно важен рейтинг в создании кода

Оценка ИИ по данным ресурса LMArena в категории WebDev

Оценка ИИ по данным ресурса LMArena в категории WebDev

Место

Модель

Score

Голосов

1

GPT-5 High

1473

8 004

1

Claude Opus 4.1 (thinking)

1458

8 726

2

Claude Opus 4.1

1451

8 986

4

Claude Sonnet 4.5 (thinking)

1420

4 863

4

MiniMax-M2

1405

3 515

Для кодинга лидируют GPT-5 и Claude. Anthropic занимает 3 из 5 первых мест.

Vision (Мультимодальность)

Работа с изображениями:

Оценка ИИ по данным ресурса LMArena в категории Vision

Оценка ИИ по данным ресурса LMArena в категории Vision

Место

Модель

Score

Голосов

1

Gemini 2.5 Pro

1249

63 845

1

ChatGPT-4o Latest

1240

15 468

2

GPT-4.5 Preview

1228

2 925

2

Gemini 2.5 Flash Preview

1224

2 963

Gemini — король мультимодальности. Google традиционно силён в работе с визуальным контентом.

Text-to-Image (Генерация изображений)

Оценка ИИ по данным ресурса LMArena в категории Text-to-Image

Оценка ИИ по данным ресурса LMArena в категории Text-to-Image

Место

Модель

Score

Голосов

1

Hunyuan Image 3.0

1153

37 888

1

Gemini 2.5 Flash Image

1146

283 324

2

Imagen 4.0 Ultra

1145

465 488

1

Seedream 4 2K

1143

14 539

Китайская модель Hunyuan от Tencent делит первое место. Но кто о ней слышал в западных медиа?

Text-to-Video (Генерация видео)

Оценка ИИ по данным ресурса LMArena в категории Text-to-Video

Оценка ИИ по данным ресурса LMArena в категории Text-to-Video

Место

Модель

Score

Голосов

1

Veo 3.1 Fast Audio

1384

4 454

1

Veo 3.1 Audio

1384

4 407

1

Veo 3 Fast Audio

1361

23 856

1

Sora 2 Pro

1358

4 633

Veo от Google и Sora от OpenAI делят лидерство. Но также отлично показывает себя китайская Hailuo.

Search (Поиск)

Оценка ИИ по данным ресурса LMArena в категории Search

Оценка ИИ по данным ресурса LMArena в категории Search

Место

Модель

Score

Голосов

1

Grok 4 Fast Search

1166

14 957

2

Perplexity Sonar Pro High

1149

18 453

2

Gemini 2.5 Pro Grounding

1142

19 350

2

o3 Search

1142

19 254

Grok от xAI (Илона Маска) лидирует в поиске. Но о нём почти не пишут.

Сравнение: медиа vs реальность

Теперь самое интересное — сопоставим медийный шум с реальными возможностями.

Инсайт #1: OpenAI доминирует в новостях, но не в качестве

В медиа:

  • OpenAI — 28 упоминаний (14%)

  • ChatGPT — 13 упоминаний (6.5%)

  • Безусловный лидер по присутствию

В тестах:

  • ChatGPT-4o — только 3-6 место в текстовых задачах

  • GPT-5 в топе, но не на первом месте

  • Claude Opus 4.1 и Gemini 2.5 Pro впереди

Вывод: OpenAI отлично умеет работать с медиа и PR, но технологически уже не является безоговорочным лидером. Google и Anthropic догнали и местами обогнали.

 Инсайт #2: Claude — скрытый чемпион

 В медиа:

  • Anthropic — 3 упоминания (1.5%)

  • Claude — 1 упоминание (0.5%)

  • Почти невидим

В тестах:

– Claude Opus 4.1 — делит 1-3 места в Text

– Claude — 1-2 места в WebDev

– Claude — в топе по reasoning

Вывод: Самая недооценённая медиа компания. Anthropic делает великолепные модели, но совершенно не умеет их пиарить. Или не считает это приоритетом.

Инсайт #3: Китайские модели — терра инкогнита

В медиа:

  • DeepSeek — 0 упоминаний

  • Qwen — 0 упоминаний

  • Hunyuan — 0 упоминаний

  • О китайских моделях не пишут вообще

В тестах:

  • Qwen3-max — 4-е место в Text (1433 score)

  • Hunyuan Image 3.0 — 1-е место в генерации изображений

  • DeepSeek R1 — в топ-10 по WebDev

Вывод: Западные медиа игнорируют китайские модели, хотя они уже в мировом топе. Языковой и политический барьер работает в обе стороны.

Инсайт #4: Google недооценён, xAI переоценён

Google в медиа: 10 упоминаний (5%)

Google в тестах: Gemini 2.5 Pro — абсолютный лидер по Text и Vision

xAI в медиа: 1 упоминание (0.5%)

xAI в тестах: Grok 4 — лидер по Search

Оба недооценены медиа относительно их технологических достижений. При этом о каждом новом твите Илона про AI пишут все издания, но Grok тестируют единицы.

 Инсайт #5: Тренды медиа ≠ тренды технологий

 О чём пишут медиа (топ-3):

1. Бизнес/инвестиции (8.5%)

2. AI Agents (5.5%)

3. Coding (3.5%)

Что реально развивается (по LMArena):

1. Multimodal модели (Vision + Audio)

2. Reasoning / CoT модели (o1, o3, Claude thinking)

3. Генерация видео (Veo, Sora, Hailuo)

Медиа фокусируются на деньгах и агентах, а реальный прогресс идёт в мультимодальности и reasoning. Показательно: генерация изображений почти исчезла из новостей (1% статей), потому что стала обыденностью.

Практические выводы: какую модель выбрать

 На основе тестов Chatbot Arena, вот мои рекомендации по выбору модели под разные задачи:

Для текстовых задач (письмо, анализ, общение)

Лучший выбор: Gemini 2.5 Pro или Claude Opus 4.1

Бюджетный вариант: Claude Sonnet 4.5 (отличное соотношение цена/качество)

Альтернатива: Qwen3-max (если работаете с китайским рынком)

Для программирования

Лучший выбор: GPT-5 High или Claude Opus 4.1 (thinking)

Быстрый вариант: Claude Sonnet 4.5

Неожиданность: MiniMax-M2 в топ-5

Для работы с изображениями (распознавание)

Лучший выбор: Gemini 2.5 Pro

Альтернатива: ChatGPT-4o Latest

Google здесь вне конкуренции.

Для генерации изображений

Лучший выбор: Hunyuan Image 3.0 или Seedream 4

Проверенный вариант: Imagen 4.0 Ultra от Google

Забудьте: DALL-E и Midjourney уже не в топе

Для генерации видео

Лучший выбор: Veo 3.1 от Google (с audio)

Альтернатива: Sora 2 Pro от OpenAI

Бюджетный: Hailuo 2.3 (из Китая)

Для AI-поиска

Лучший выбор: Grok 4 Fast Search

Альтернатива: Perplexity Sonar Pro

От гигантов: Gemini 2.5 Pro Grounding или o3 Search

Почему такой разрыв между медиа и реальностью?

Несколько факторов объясняют этот феномен

  1. PR и маркетинг

    OpenAI тратит огромные бюджеты на PR. Anthropic фокусируется на продукте. Результат: ChatGPT знают все, Claude — только профессионалы.

  2. Timing

    ChatGPT был первым массовым продуктом в эпоху LLM. Первопроходцы получают непропорционально много внимания, даже если их потом обгоняют.

  3. Бизнес-новости интереснее технических

    Журналистам проще написать про $100M раунд, чем разбираться в архитектуре transformer’ов. Отсюда фокус на инвестициях, а не на бенчмарках.

  4. Западоцентричность медиа

    TechCrunch, VentureBeat и MIT Technology Review — американские издания. Они пишут о своих компаниях. Китайские модели в топах, но о них просто не знают.

  5. Бенчмарки сложны

    Chatbot Arena — отличный инструмент, но он не попадает в новостную повестку. Статья “OpenAI привлёк $X млрд” соберёт больше просмотров, чем “Claude обогнал GPT на 12 пунктов ELO”. 

Что из этого следует для разработчиков

Несколько советов на основе этого анализа:

  1. Не верьте хайпу — тестируйте сами

    То, о чём больше всего кричат, не обязательно лучшее. Проверяйте модели на своих задачах.

  2. Следите за бенчмарками, а не за новостями

    Chatbot Arena, MMLU, HumanEval — эти метрики важнее громких пресс-релизов.

  3. Смотрите на китайские модели

    Qwen, DeepSeek, Hunyuan — они уже в мировом топе и часто бесплатны или дешевле западных аналогов.

  4. Claude недооценён

    Если вы всё ещё используете только ChatGPT, попробуйте Claude. Особенно для кода и сложных reasoning-задач.

  5. Gemini — тёмная лошадка

    Google незаметно сделал одну из лучших моделей. Особенно сильна в мультимодальности.

  6. Используйте специализированные модели

    Для поиска — Grok или Perplexity. Для видео — Veo. Для изображений — Hunyuan. Универсальные модели не всегда лучшие.

Заключение

Анализ 200 статей показал огромный разрыв между тем, о чём пишут tech-медиа, и реальными возможностями ИИ-моделей. OpenAI доминирует в новостях, но Claude и Gemini часто превосходят его в тестах. Китайские модели в топах, но о них никто не знает на Западе. Журналисты пишут про инвестиции, а настоящий прогресс происходит в reasoning и мультимодальности.

Главный вывод: в мире ИИ нельзя полагаться только на новости. Если вы разработчик, исследователь или просто интересуетесь технологиями — изучайте бенчмарки, тестируйте модели сами и следите за малоизвестными игроками. Часто именно они делают самые интересные вещи.

Я продолжаю отслеживать новости об ИИ и публикую самые важные и интересные в своём Telegram-канале Ai&I (https://t.me/ai_and_i_news). Там вы найдёте не только хайп, но и реальные технологические прорывы — на русском языке, кратко и по делу.

А какие модели используете вы? Совпадает ли ваш опыт с результатами LMArena? Делитесь в комментариях! 

Все данные актуальны на начало ноября 2025 года.

Автор: GoldenSpade

Источник

Rambler's Top100