Мы протестировали 22 нейросети на задачах для российских учителей. Ни одна не знает чувашский. Claude.. Claude. gemini.. Claude. gemini. gpt.. Claude. gemini. gpt. llm.. Claude. gemini. gpt. llm. Natural Language Processing.. Claude. gemini. gpt. llm. Natural Language Processing. искусственный интеллект.. Claude. gemini. gpt. llm. Natural Language Processing. искусственный интеллект. Машинное обучение.. Claude. gemini. gpt. llm. Natural Language Processing. искусственный интеллект. Машинное обучение. нейросети.. Claude. gemini. gpt. llm. Natural Language Processing. искусственный интеллект. Машинное обучение. нейросети. образование.. Claude. gemini. gpt. llm. Natural Language Processing. искусственный интеллект. Машинное обучение. нейросети. образование. ФГОС.. Claude. gemini. gpt. llm. Natural Language Processing. искусственный интеллект. Машинное обучение. нейросети. образование. ФГОС. чувашский язык.

Я живу в Чебоксарах и запускаю ИИ-пилот в местной школе. Когда понадобилось проверить, какие LLM действительно способны помочь российским учителям в их работе — оказалось, что бенчмарка для этого не существует. MERA тестирует, может ли модель решить задания ЕГЭ. EduBench — только английский и китайский. Российское образование — это ФГОС, технологические карты уроков, ОГЭ, чувашский язык — и ничего из этого ни один бенчмарк не покрывает.

Мы сделали EduBench-RU — первый бенчмарк для оценки LLM на задачах российского образования в школах. 50 промптов, 22 модели, двойная оценка. И нашли кое-что неожиданное.

Что внутри

50 промптов разбиты на 4 модуля:

Модуль

Кол-во промптов

Что тестируем

A. Педагогика по ФГОС

15

Технологические карты уроков, объяснения для учеников, анализ результатов ОГЭ

B. Предметные знания

10

Математика, русский язык, физика, биология, история, литература

C. Учитель-копайлот

10

КТП, характеристики учеников, родительские собрания, рубрики, инклюзия

D. ChuvashBench

15

Перевод, обучение чувашскому, культурный контекст, билингвальные уроки

Модули A–C проверяют, может ли модель работать как помощник учителя в реальной российской школе. Модуль D — отдельная история, о которой ниже.

22 модели: от GPT-5.4 до GigaChat

Мы взяли все актуальные модели (март 2026):

  • Frontier: Claude Opus 4.6, Claude Sonnet 4.6, GPT-5.4, Gemini 3.1 Pro, Gemini 2.5 Pro

  • Mid-tier: GPT-5.4 Mini, Gemini 2.5 Flash, Grok 4.1 Fast, Kimi K2.5, GLM 5, DeepSeek V3.2

  • Open-source: Qwen3 (8B, 14B, 32B, 235B), Qwen3.5 27B, Mistral Large 3, Llama 4 Maverick, Phi-4

Все модели тестировались через OpenRouter API с одинаковыми параметрами: max_tokens=8192, temperature=0.7, один и тот же системный промпт на русском.

Стоимость эксперимента: 1500 рублей за 2,4 миллиона выходных токенов.

Как оценивали

Вместо ручной оценки мы использовали LLM-as-judge — подход из оригинального EduBench. Два судьи:

  • GPT-5.4 (OpenAI) — основной судья

  • Claude Sonnet 4.6 (Anthropic) — второй судья

Зачем два? Чтобы поймать предвзятость. И мы её поймали: Sonnet систематически ставит на +0.49 балла выше, чем GPT. Особенно своим же моделям Claude. Ожидаемо. Консенсус (среднее двух судей) это сглаживает.

Каждый ответ оценивается по 5 измерениям (1–4 балла): педагогическое качество, качество русского языка, фактическая точность, практичность, знание российского контекста. Также добавляется 6-е измерение: использование чувашского языка.

Результаты: общий рейтинг

#

Модель

Общий

Образование

Чувашский

Тип

1

Gemini 3.1 Pro

3.42

3.51

3.19

Closed

2

Claude Opus 4.6

3.24

3.36

2.98

Closed

3

Claude Sonnet 4.6

3.22

3.34

2.95

Closed

4

Gemini 3.1 Flash Lite

3.22

3.33

2.94

Closed

5

Gemini 2.5 Pro

3.21

3.31

2.98

Closed

6

DeepSeek V3.2

3.15

3.28

2.85

Open

7

GLM 5

3.15

3.28

2.84

Closed

8

Mistral Large 3

3.14

3.28

2.81

Open

9

GPT-5.4

3.09

3.23

2.78

Closed

10

GPT-5.4 Mini

2.99

3.19

2.51

Closed

Полная таблица (22 модели)

#

Модель

Общий

Образование

Чувашский

Тип

11

Gemini 2.5 Flash

2.99

3.03

2.88

Closed

12

Qwen3.5 27B

2.93

3.09

2.54

Open

13

Grok 4.1 Fast

2.87

3.14

2.21

Closed

14

Qwen3 235B A22B

2.72

3.04

1.97

Open

15

GLM 4.7 Flash

2.70

2.82

2.17

Open

16

Qwen3 32B

2.58

2.91

1.81

Open

17

Llama 4 Maverick

2.55

2.64

2.33

Open

18

Qwen3 14B

2.42

2.73

1.70

Open

19

Qwen3 8B

2.36

2.63

1.72

Open

20

Command A

2.25

2.44

1.79

Open

21

Phi-4 14B

1.63

1.68

1.51

Open

Несколько наблюдений:

Gemini 3.1 Pro — неожиданный лидер. Не Claude, не GPT. Google. Самая сильная модель и по знаниям ФГОС, и по чувашскому одновременно.

GPT-5.4 — только 9-е место. Новейший флагман OpenAI уступает моделям Google и Anthropic на задачах для российских учителей.

Open-source отстаёт на 18%. Средний балл закрытых моделей: 3.30. Открытых: 2.80. Лучший открытый — DeepSeek V3.2 (3.28), почти догоняет топовый вариант.

ChuvashBench: вот тут всё плохо

А теперь главное. Модуль D — 15 промптов на чувашском языке: переводы, упражнения, грамматика, культурный контекст.

Распределение оценок точности чувашского (судья GPT-5.4):

Уровень

Значение

Моделей

>3.0

В основном правильно

0

2.0–3.0

Смесь правильного и выдуманного

3

1.0–2.0

В основном галлюцинации

14

=1.0

Полная галлюцинация

5

Ни одна модель не набрала выше 3.0. Лучшие — Claude Opus, GPT-5.4 и Gemini 3.1 Pro — получили 2.1 из 4.0. Часть слов правильные (например, «Салам» — привет), часть — полностью выдуманные.

Пять моделей — все варианты Qwen3 и Phi-4 — получили ровно 1.0 на каждом промпте. Они генерируют текст, который выглядит как чувашский, но не является им.

А ведь чувашский — язык 1.1 миллиона человек. Официальный язык Чувашской Республики. На нём ведётся обучение в школах. ЮНЕСКО классифицирует его как «определённо находящийся под угрозой исчезновения». И ни одна нейросеть в мире не умеет на нём нормально работать.

При этом данные для обучения существуют: 2.9 миллиона предложений на чувашском и 1.4 миллиона параллельных чувашско-русских пар на HuggingFace под лицензией CC0 (Антонов, 2024). Проблема не в данных — в приоритетах разработчиков моделей.

Что это значит для школ

Качество: Передовые модели дают 3.0–3.5 из 4.0 для планирования уроков. Достаточно для черновика, но нужна доработка учителем.

152-ФЗ: Для школ, где данные учеников не могут покидать сервер, лучший self-hosted вариант — Qwen3.5 27B (3.09 баллов, 18 ГБ VRAM). Разрыв с лидером — 12%. Компромисс, но приемлемый.

Региональные языки: Если ваша школа в Чувашии, Татарстане, Башкирии — у вас нет ИИ-инструмента для родного языка. Ноль. Это проблема, которую не решит ни одна существующая модель.

Что дальше

Мы работаем над ChuvashLM — первой моделью для чувашского языка на основе Qwen3-32B. В пилоте развернём в школе локально для учителей. Но это тема отдельной статьи.

EduBench-RU — открытый бенчмарк. Все промпты, результаты и код:

GitHub: github.com/csylabs-org/edubench-ru

Если вы разрабатываете модели для русского языка — протестируйте на наших промптах. Если вы носитель чувашского — помогите валидировать результаты ChuvashBench. Пишите в комментариях или на daniel@csylabs.com.


Даниил Иванов — основатель ООО «ЛИИ» (Чебоксары), AI-решения для спорта, образования и культуры. Более 10 лет в инновациях в спорте.

Автор: daniel_ivanov

Источник

Rambler's Top100