Сравнительный анализ 18 LLM моделей: конец монополии?. ai.. ai. Big Data.. ai. Big Data. computer vision.. ai. Big Data. computer vision. data science.. ai. Big Data. computer vision. data science. llm.. ai. Big Data. computer vision. data science. llm. nlp.. ai. Big Data. computer vision. data science. llm. nlp. python.. ai. Big Data. computer vision. data science. llm. nlp. python. математика.. ai. Big Data. computer vision. data science. llm. nlp. python. математика. Машинное обучение.. ai. Big Data. computer vision. data science. llm. nlp. python. математика. Машинное обучение. обзор.. ai. Big Data. computer vision. data science. llm. nlp. python. математика. Машинное обучение. обзор. сравнение LLM.. ai. Big Data. computer vision. data science. llm. nlp. python. математика. Машинное обучение. обзор. сравнение LLM. языковые модели.

Сравнительный анализ 18 LLM моделей: конец монополии?

Ноябрь 2025 — месяц, когда open-source модели официально догнали проприетарные. Разбираем, что произошло, кто теперь на вершине, и как это использовать в своих проектах.

Сравнительный анализ 18 LLM моделей: конец монополии? - 1

Введение: А что вообще произошло?

Ещё год назад всё было просто: хочешь топовое качество — плати OpenAI или Anthropic. Open-source модели «подавали надежды», но стабильно отставали на 15-20% по ключевым бенчмаркам.

А потом случился ноябрь 2025.

13 ноября — Baidu анонсирует ERNIE 5.0 на Baidu World 2025 — нативно омни-модальную модель, которая за неделю попадает в топ-15 Vision Arena на LMArena, сравниваясь с Claude Sonnet 4 и GPT-5-high.

18 ноября — Google выкатывает Gemini 3 Pro: 91.9% на GPQA Diamond (научное рассуждение), контекст в миллион токенов. Казалось бы, закрытые модели снова впереди планеты всей…

19 ноября — Сбер отвечает релизом GigaChat3-702B под MIT-лицензией. И вот тут начинается интересное: модель показывает 86.59% на HumanEval+ — по цифрам класно, но не понятно как интерпретировать. В добавок веса открыты.

24 ноября — Anthropic представляет Claude Opus 4.5 — первую модель, пробившую планку 80% на SWE-bench Verified (80.9%). Реальные баги из реальных репозиториев — и модель фиксит 4 из 5.

Параллельно китайцы не спят: Kimi-K2-Thinking от Moonshot AI — первая open-source модель с триллионом параметров. 84.5% на GPQA Diamond, 71.3% на SWE-bench. Под MIT-лицензией. Бесплатно. Забирайте. А Alibaba выкатывает Qwen3-VL-235B-A22B-Thinking — VLM с поддержкой визуальных агентов и GUI-автоматизации.

💡 Главный инсайт: Если вы до сих пор считаете, что open-source — это «почти как GPT-4, но похуже» — пора обновить картину мира. Kimi-K2 бьёт GPT-4o на научном рассуждении с разницей в 30+ процентных пунктов.

Так что там с монополией OpenAI и Anthropic? Давайте разбираться с цифрами в руках.


Большая сравнительная таблица

Данные собраны из официальных источников: HuggingFace model cards, технические отчёты компаний, Aider LLM Leaderboards, LMSys Chatbot Arena.

#

Модель

Тип

MMLU-Pro

GPQA

HumanEval+

SWE-bench

MATH-500

AIME

Парам.

Актив.

1

Gemini 3 Pro

Closed

91.8%

91.9%

76.2%

95-100%

~1T

~20B

2

GPT-5.1

Closed

91.4%

85.6%

76.3%

96.0%

94.6%

N/A

N/A

3

Claude Opus 4.5

Closed

90.8%

87.0%

80.9%

N/A

N/A

4

Kimi-K2-Thinking

🔓 Open

84.6%

84.5%

71.3%

94.5-100%

1000B

32B

5

Claude Sonnet 4.5

Closed

89.1%

83.4%

77.2%

87-100%

N/A

N/A

6

DeepSeek-R1

🔓 Open

84.0%

81.0%

49.2%

97.3%

79.8%

671B

37B

7

DeepSeek-V3.2-Exp

🔓 Open

85.0%

79.9%

67.8%

89.3%

671B

37B

8

Qwen3-235B-A22B

🔓 Open

83.0%

81.1%

92.3%

235B

22B

9

GPT-5.1-Codex-Max

Closed

77.9%

N/A

N/A

10

Mistral Large 2

🔓 Open

84.0%

92.0%

123B

123B

11

GigaChat3-702B 🇷🇺

🔓 Open

72.76%

55.72%

86.59%

78.4%

702B

36B

12

Qwen3-30B-A3B

🔓 Open

80.9%

85%

30.5B

3.3B

13

Gemma-3-27B-IT

🔓 Open

67.5%

42.4%

89.0%

27B

27B

14

Mistral Small 3

🔓 Open

81.0%

92.9%

24B

24B

15

Codestral 25.01

Closed

86.6%

~22B

~22B

16

Gemma-3-12B-IT

🔓 Open

~55%

~35%

~70%

12B

12B

17

GigaChat3-10B 🇷🇺

🔓 Open

60.61%

35.02%

69.51%

70.0%

10B

1.8B

18

Vikhr-Nemo-12B 🇷🇺

🔓 Open

26.64%

17.15%

12B

12B

🔓 = Open-source (MIT/Apache 2.0) | 🇷🇺 = Российская разработка


Kimi-K2: Open-source догнал топов

Остановимся на этом подробнее, потому что это реально переломный момент для индустрии.

Kimi-K2-Thinking от китайской Moonshot AI:

  • 🏆 Триллион параметров — но благодаря MoE активируется только 32B на токен

  • 🏆 84.5% на GPQA Diamond — это уровень Claude 3.5 Sonnet

  • 🏆 71.3% на SWE-bench — фиксит реальные баги из GitHub

  • 🏆 51% на Humanity’s Last Exam — лучший результат среди всех open-source

  • 🏆 MIT-лицензия — хотите в прод? Пожалуйста. Хотите дообучить? Да на здоровье

Для понимания масштаба: GPT-4o показывает ~53% на GPQA Diamond. Kimi-K2 — open-source модель — опережает его на 30+ процентных пунктов.

💡 Практический совет: Kimi-K2 доступен через API на Together AI и других платформах. Для задач глубокого анализа и научного рассуждения — отличная альтернатива Claude/GPT по гораздо меньшей цене.


Топ-5 по категориям

🧠 Научное рассуждение (GPQA Diamond)

GPQA — это вопросы уровня PhD по физике, химии и биологии. Здесь нужно не знать факты, а уметь думать.

#

Модель

GPQA Diamond

Тип

🥇

Gemini 3 Pro

91.9%

Closed

🥈

Claude Opus 4.5

87.0%

Closed

🥉

GPT-5.1

85.6%

Closed

4

Kimi-K2-Thinking

84.5%

Open

5

Claude Sonnet 4.5

83.4%

Closed

Вывод: Разрыв между closed и open — всего 7%. Год назад было 25+.


💻 Кодинг (SWE-bench Verified)

SWE-bench — реальные баги из реальных open-source репозиториев. Модель должна понять issue, найти файл, написать патч, пройти тесты.

#

Модель

SWE-bench

Тип

🥇

Claude Opus 4.5

80.9%

Closed

🥈

GPT-5.1-Codex-Max

77.9%

Closed

🥉

Claude Sonnet 4.5

77.2%

Closed

4

Gemini 3 Pro

76.2%

Closed

5

Kimi-K2-Thinking

71.3%

Open

6

DeepSeek-V3.2-Exp

67.8%

Open

Вывод: В кодинге closed-модели пока лидируют, но open-source уже на расстоянии вытянутой руки.


📐 Математика (MATH-500 / AIME)

AIME — олимпиадная математика уровня финала всероса. MATH-500 — от школьной алгебры до university-level.

#

Модель

MATH-500

AIME

Тип

🥇

DeepSeek-R1

97.3%

79.8%

Open

🥈

GPT-5.1

96.0%

94.6%

Closed

🥉

Gemini 3 Pro

95-100%

Closed

4

Kimi-K2-Thinking

94.5-100%

Open

5

Qwen3-235B-A22B

92.3%

Open

Вывод: В математике open-source УЖЕ лидирует! DeepSeek-R1 с 97.3% на MATH-500 — абсолютный рекорд.

💡 Для практиков: Нужна модель для математических расчётов, анализа данных, научных вычислений? DeepSeek-R1 под MIT-лицензией. Серьёзно.


🌐 Лучшие Open-Source LLM — Overall

Сводный рейтинг. Только модели с открытыми весами.

Ранг

Модель

MMLU-Pro

GPQA

SWE-bench

Лицензия

VRAM

🥇

Kimi-K2-Thinking

84.6%

84.5%

71.3%

MIT

~250GB+

🥈

Qwen3-235B-A22B

83.0%

81.1%

Apache 2.0

~470GB

🥉

DeepSeek-V3.2-Exp

85.0%

79.9%

67.8%

MIT

~700GB

4

DeepSeek-R1

84.0%

81.0%

49.2%

MIT

~700GB

5

Mistral Large 2

84.0%

MRL

~300GB

6

GigaChat3-702B 🇷🇺

72.76%

55.72%

MIT

~800GB+


Лучшие компактные Open-Source модели (≤30B параметров)

Для тех, у кого нет кластера H100, но есть RTX 4090 или облачный инстанс.

Ранг

Модель

Параметры

Активные

VRAM

Фишка

🥇

Qwen3-30B-A3B-Thinking

30.5B

3.3B

~60GB

MoE-магия: качество 70B+ при затратах 7B

🥈

Mistral Small 3

24B

24B

~48GB

81% MMLU, HumanEval 92.9%

🥉

Gemma-3-27B-IT

27B

27B

~54GB

Мультимодальный, 128K контекст

4

Codestral 25.01

~22B

~22B

~44GB

FIM 95.3% — лучший для автодополнения

5

Gemma-3-12B-IT

12B

12B

~24GB

RTX 4090 ready, 140+ языков

6

GigaChat3-10B 🇷🇺

10B

1.8B

~20GB

Русский язык из коробки

💡 Qwen3-30B-A3B — это магия MoE: 30 миллиардов параметров, но активируется только 3.3B на токен. Качество как у 70B+ модели, VRAM как у 7B.


💻 Лучшие Open-Source LLM для кодинга

Отдельный рейтинг для тех, кто строит coding assistants, IDE-плагины и системы ��втоматического ревью. В этой категории в конце ноября произошло важное событие — релиз специализированной линейки Qwen3-Coder.

Ранг

Модель

HumanEval+

SWE-bench

FIM

Лицензия

🥇

Qwen3-Coder-480B-A35B

94.2%

82.1%

97.0%

Apache 2.0

🥈

Mistral Small 3

92.9%

Apache 2.0

🥉

Mistral Large 2

92.0%

MRL

4

Qwen3-Coder-30B-A3B

89.5%

94.5%

Apache 2.0

5

Codestral 25.01

86.6%

95.3%

Proprietary

6

GigaChat3-702B 🇷🇺

86.59%

MIT

7

Kimi-K2-Thinking

71.3%

MIT

8

GigaChat3-10B 🇷🇺

69.51%

MIT

Лидеры рейтинга

Qwen3-Coder-480B-A35B-Instruct — новый «король кода». Это массивная MoE-модель (480 млрд параметров, 35 млрд активных), которая вперв��е в истории open-source пробила 80% на SWE-bench, опережая даже Claude Opus 4.5. Если вам нужен аналог Senior Developer для сложных рефакторингов — это он.

Qwen3-Coder-30B-A3B — лучшее соотношение цена/качество. При смешных требованиях к железу (активируется всего 3 млрд параметров!) она выдает почти 90% на HumanEval+, обгоняя многие 70B-модели. Идеальный выбор для локального Copilot в VS Code.

🇷🇺 Феномен GigaChat

GigaChat3-702B занимает почетное место в мировом топ-6, и здесь важен контекст.
Да, специализированные «кодеры» (как Qwen Coder или Mistral) вырвались вперед по сухим цифрам, но GigaChat — это General Purpose модель.

Показатель 86.59% на HumanEval+ означает, что российская модель пишет код лучше, чем GPT-4o и Claude 3.5 Sonnet (образца 2024 года).

Почему для нас GigaChat может быть №1:

  1. Русский контекст: Она идеально понимает ТЗ на русском, комментарии в кириллице и специфику 1С/Bitrix, где западные модели часто «плывут».

  2. MIT Лицензия: В отличие от Mistral Large (MRL) или Codestral, Сбер отдал веса полностью. Никаких ограничений на коммерческое использование.

  3. Безопасность: Это единственная модель из топа, которую можно развернуть в закрытом контуре российского энтерпрайза без юридических рисков и «закладок».

💡 Итог: Если вам нужен сухой код на Python/JS — берите Qwen3-Coder. Если нужна модель, которая обсудит с вами архитектуру на русском языке, поймет нечеткое ТЗ и напишет документацию — GigaChat3-702B вне конкуренции.


🇷🇺 Российские и русскоязычные модели

Отдельная секция для отечественных разработок. Спойлер: есть чем гордиться.

Модель

Разработчик

Параметры

HumanEval+

Ru Arena

Особенности

GigaChat3-702B-A36B

Сбер

702B (36B акт.)

86.59%

Мировой рекорд HumanEval+

GigaChat3-10B-A1.8B

Сбер

10B (1.8B акт.)

69.51%

Влезает в RTX 4090

Vikhr-Nemo-12B

Vikhrmodels

12B

65.5

Лучший для RAG на русском

QVikhr-3-4B

Vikhrmodels

4B

78.2

+20.7% vs базовой Qwen3-4B

Что сделал Сбер

Команда SberDevices выпустила GigaChat3 — и это не «ещё одна российская LLM». Это:

  1. 702B параметров с архитектурой Mixture-of-Experts (36B активных)

  2. 86.59% на HumanEval+ — мировой рекорд на момент релиза

  3. MIT-лицензия — полностью открытые веса, используйте как хотите

  4. Pretrain с нуля — не файнтюн китайской модели, а собственный корпус данных

Также выпущена компактная GigaChat3-10B — 10 миллиардов параметров, 1.8B активных. Влезает в RTX 4090, показывает 69.51% на HumanEval и 70% на MATH. Отличный вариант для локального запуска.

Vikhrmodels — комьюнити-разработка

Отдельного упоминания заслуживает проект Vikhrmodels — команда энтузиастов, адаптирующая мировые модели под русский язык:

  • Vikhr-Nemo-12B — адаптация Mistral-Nemo, оптимизирована для RAG-задач

  • QVikhr-3-4B — улучшенная Qwen3-4B, +20.7% на русскоязычных бенчмарках


Требования к GPU VRAM

Практическая таблица для планирования инфраструктуры.

Категория

Модели

VRAM (BF16)

С квантизацией (Q4)

Железо

Кластерные

Kimi-K2, GigaChat3-702B, DeepSeek-R1

700-1000GB+

250-400GB

8+ H100

Multi-GPU

Qwen3-235B, Mistral Large 2

300-470GB

80-120GB

4× H100

Single H100

Qwen3-30B, Gemma-3-27B

54-60GB

15-20GB

1× H100

RTX 4090

GigaChat3-10B, Gemma-3-12B, Vikhr-Nemo

20-24GB

6-8GB

RTX 4090

Consumer

QVikhr-3-4B, Gemma-3-4B

8GB

2-4GB

RTX 3080/4070


Зачем платить за API, когда есть Open-Source?

Хороший вопрос. Давайте честно.

Математика простая:

Сценарий 1: Стартап, 100K запросов/месяц

  • GPT-4o API: ~$1,750/месяц

  • Аренда H100: ~$1,500-2,200/месяц, но запросов неограниченно

При 100K+ запросов self-hosted уже выгоднее.

Сценарий 2: Небольшая команда, 10K запросов/месяц

  • GPT-4o API: ~$175/месяц

  • Аренда H100: ~$1,500+/месяц

Здесь API выигрывает в 10 раз.

Но есть нюанс

Простой человек и даже средняя компания не может просто так купить сервер с H100 за десятки тысяч долларов. Это реальность.

Поэтому реальный компромисс:

Ваша ситуация

Рекомендация

<50K запросов/месяц

API дешевле и проще

>100K запросов/месяц

Self-hosted окупается

Чувствительные данные

Только self-hosted, никаких вариантов

Эксперименты/R&D

Локальные 7-12B модели на RTX 4090

Production + приватность

Облачные инстансы с GPU + open-source модели

💡 Практический совет: Начните с API, измерьте реальные объёмы, посчитайте unit economics. Self-hosted имеет смысл при >50K запросов/месяц ИЛИ при жёстких требованиях к приватности.


Данные: почему не все могут сделать свою LLM

Хотите понять, почему не каждая компания может выпустить свой GPT-4? Ответ не в архитектуре — трансформеры давно опубликованы. Ответ в данных.

Что нужно для pretrain:

Этап

Что нужно

Сложность

Pretrain

10-15 триллионов токенов чистых данных

Собрать, очистить, дедуплицировать

Instruct

Миллионы пар вопрос-ответ

Разметка, качество, разнообразие

Thinking

Синтетические цепочки рассуждений

Нужны сильные модели для ген��рации

Почему это ОЧЕНЬ дорого:

  1. Сбор данных — лицензии, парсеры, петабайты хранилища

  2. Очистка — до 90% сырых данных отбраковывается

  3. Дедупликация — без неё модель «заучивает», а не «понимает»

  4. Compute — pretrain на 14T токенов = месяцы работы кластера из 1000+ GPU

Кто в России делает pretrain с нуля?

Только Сбер.

И это не преувеличение. Pretrain GigaChat3-702B — это:

  • Кластер из тысяч GPU

  • Месяцы непрерывной работы

  • Десятки ML-инженеров

  • 14 триллионов токенов собственного корпуса

Остальные российские проекты работают с файнтюном существующих моделей — и это разумный подход при ограниченных ресурсах. Но полный pretrain на русскоязычных данных — это уровень ресурсов, который в России есть только у Сбера.

📖 Рекомендую: Pretrain: как мы собрали обучающий корпус из 14 триллионов токенов — отличная техническая статья от команды SberDevices.


LLM в агентных системах

Агенты — следующий рубеж после простых чатботов. Модель должна планировать, использовать инструменты, обрабатывать ошибки, работать автономно.

Что нужно от модели для агентов:

  • Function calling — надёжный вызов внешних API

  • Длинный контекст — помнить историю сессии

  • Следование инструкциям — не отклоняться от плана

  • Самокоррекция — понимать, когда что-то пошло не так

Топ-6 моделей для агентных систем

Ранг

Модель

Function Calling

Контекст

SWE-bench

Тип

🥇

Claude Opus 4.5

⭐⭐⭐

200K

80.9%

Closed

🥈

GPT-5.1

⭐⭐⭐

128K

76.3%

Closed

🥉

Gemini 3 Pro

⭐⭐⭐

1M

76.2%

Closed

4

Kimi-K2-Thinking

⭐⭐

128K

71.3%

Open

5

Qwen3-235B-A22B

⭐⭐

256K

Open

6

DeepSeek-V3.2

⭐⭐

128K

67.8%

Open

Честно о сложностях open-source агентов

Проблемы:

  • Function calling менее надёжный, чем у GPT/Claude

  • Чаще «галлюцинирует» при длинных сессиях

  • Меньше примеров и best practices

Преимущества:

  • Полный контроль над моделью

  • Можно дообучить на своих данных

  • Нет rate limits и зависимости от внешнего API

  • Приватность данных

💡 Практический совет: Для production-агентов начните с Claude/GPT. Для внутренних инструментов и экспериментов — Kimi-K2 или Qwen3 отлично справятся.


VLM: модели с пониманием изображен��й

Vision-Language Models — отдельная категория, где модель понимает и текст, и картинки. Ноябрь 2025 принёс несколько важных релизов в этой области.

Что нового в VLM

ERNIE 5.0 Preview от Baidu — нативно омни-модальная модель, которая сразу попала в топ-15 Vision Arena (score ~1206) на уровне Claude Sonnet 4 и GPT-5-high. Особенно сильна в документах и графиках.

Qwen3-VL-235B-A22B-Thinking от Alibaba — флагманская VLM с поддержкой:

  • Visual Agent — может управлять GUI на ПК и мобильных устройствах

  • Visual Coding — генерирует HTML/CSS/JS из скриншотов

  • 3D Grounding — пространственное понимание объектов

  • Контекст до 256K токенов

Топ-6 VLM (ноябрь 2025)

Ранг

Модель

Arena Score

Видео

Тип

Особенности

🥇

Gemini 3 Pro

#1

Closed

Лидер Vision Arena, 1M контекст

🥈

GPT-5.1

#2-3

Closed

Улучшенный OCR, анализ графиков

🥉

Claude Opus 4.5

#4-5

Closed

Лучший для длинных документов

4

ERNIE 5.0 Preview

#12-15

Closed

Документы, графики, китайский

5

Qwen3-VL-235B-A22B-Thinking

Open

Visual agents, GUI automation

6

InternVL3-78B

Open

Industrial/3D reasoning

💡 Для практиков:

  • Нужен VLM для анализа скриншотов, документов? Gemma-3-27B работает на одном H100.

  • Хотите автоматизацию GUI? Qwen3-VL-235B-Thinking — единственная open-source с visual agents.

  • Работаете с китайским контентом? ERNIE 5.0 или Qwen3-VL будут оптимальны.

Open-Source VLM: на что обратить внимание

Модель

Параметры

VRAM

Фишка

Qwen3-VL-235B-A22B-Thinking

235B (22B акт.)

~500GB

Visual agents, лучший open-source

InternVL3-78B

78B

~160GB

Industrial reasoning, 3D

Gemma-3-27B-IT

27B

~54GB

Pan & Scan, 128K, одна H100

ERNIE-4.5-VL-28B-A3B-Thinking

28B (3B акт.)

~48GB

Apache 2.0, документы

LLaMA 3.2 Vision

11B-90B

24-180GB

Strong OCR, 128K контекст


Ключевые выводы

1. Монополия закончилась

Open-source модели официально достигли уровня проприетарных. Kimi-K2 (MIT) сравним с Claude 3.5 Sonnet. DeepSeek-R1 (MIT) — лучший в мире на математике.

2. MoE — архитектура 2025 года

Большинство топовых моделей используют Mixture-of-Experts: триллион параметров, но активируется 3-5%. Качество «большой» модели при затратах «маленькой».

3. Россия в игре

GigaChat3-702B от Сбера — не «догоняющая разработка», а мировой рекорд на HumanEval+ (86.59%). Под MIT-лицензией. Это достижение мирового уровня.

4. VLM становятся агентами

Новое поколение VLM умеет не только видеть, но и действовать: управлять GUI, генерировать код из скриншотов, понимать 3D-пространство.

5. Таблица выбора

И тут практически нет Чат-ЖПТ от Open-АИ🙂.

Задача

Лучший выбор

Open-source альтернатива

Научное рассуждение

Gemini 3 Pro

Kimi-K2-Thinking

Кодинг

Claude Opus 4.5

Qwen3-Coder-480B-A35B

Математика

DeepSeek-Math-V2 или R1(open!)

— уже лучший

Агенты

Claude Opus / GPT-5.1

Kimi-K2 / Qwen3-235B

Локальный запуск

Qwen3-30B-A3B / Mistral Small 3

Русский язык

GigaChat3

Vikhr-Nemo-12B

VLM + Visual Agents

Gemini 3 Pro

Qwen3-VL-235B-Thinking

VLM локально

Gemma-3-27B-IT

6. Что это значит для вас?

  • DS/ML-инженерам: Пора пробовать open-source в production. Качество уже там.

  • Стартапам: Считайте unit economics. >100K запросов — self-hosted выгоднее.

  • Enterprise: Open-source + приватные данные = независимость от внешних API.

  • Всем: Следите за китайскими и российскими релизами. Там сейчас происходит самое интересное.


Понравилась статья? Делитесь в комментариях своим опытом с LLM. Особенно интересно услышать про реальные кейсы open-source в production.


Источники: HuggingFace, Anthropic, OpenAI, Google DeepMind, Alibaba (Qwen), DeepSeek, Moonshot AI, Sber, Vikhrmodels, Baidu, Aider LLM Leaderboards, LMArena (Vision/Text Arena)

Дата: Декабрь 2025

Автор: kitbit

Источник

Rambler's Top100