Я живу в Чебоксарах и запускаю ИИ-пилот в местной школе. Когда понадобилось проверить, какие LLM действительно способны помочь российским учителям в их работе — оказалось, что бенчмарка для этого не существует. MERA тестирует, может ли модель решить задания ЕГЭ. EduBench — только английский и китайский. Российское образование — это ФГОС, технологические карты уроков, ОГЭ, чувашский язык — и ничего из этого ни один бенчмарк не покрывает.
Мы сделали EduBench-RU — первый бенчмарк для оценки LLM на задачах российского образования в школах. 50 промптов, 22 модели, двойная оценка. И нашли кое-что неожиданное.
Что внутри
50 промптов разбиты на 4 модуля:
|
Модуль |
Кол-во промптов |
Что тестируем |
|---|---|---|
|
A. Педагогика по ФГОС |
15 |
Технологические карты уроков, объяснения для учеников, анализ результатов ОГЭ |
|
B. Предметные знания |
10 |
Математика, русский язык, физика, биология, история, литература |
|
C. Учитель-копайлот |
10 |
КТП, характеристики учеников, родительские собрания, рубрики, инклюзия |
|
D. ChuvashBench |
15 |
Перевод, обучение чувашскому, культурный контекст, билингвальные уроки |
Модули A–C проверяют, может ли модель работать как помощник учителя в реальной российской школе. Модуль D — отдельная история, о которой ниже.
22 модели: от GPT-5.4 до GigaChat
Мы взяли все актуальные модели (март 2026):
-
Frontier: Claude Opus 4.6, Claude Sonnet 4.6, GPT-5.4, Gemini 3.1 Pro, Gemini 2.5 Pro
-
Mid-tier: GPT-5.4 Mini, Gemini 2.5 Flash, Grok 4.1 Fast, Kimi K2.5, GLM 5, DeepSeek V3.2
-
Open-source: Qwen3 (8B, 14B, 32B, 235B), Qwen3.5 27B, Mistral Large 3, Llama 4 Maverick, Phi-4
Все модели тестировались через OpenRouter API с одинаковыми параметрами: max_tokens=8192, temperature=0.7, один и тот же системный промпт на русском.
Стоимость эксперимента: 1500 рублей за 2,4 миллиона выходных токенов.
Как оценивали
Вместо ручной оценки мы использовали LLM-as-judge — подход из оригинального EduBench. Два судьи:
-
GPT-5.4 (OpenAI) — основной судья
-
Claude Sonnet 4.6 (Anthropic) — второй судья
Зачем два? Чтобы поймать предвзятость. И мы её поймали: Sonnet систематически ставит на +0.49 балла выше, чем GPT. Особенно своим же моделям Claude. Ожидаемо. Консенсус (среднее двух судей) это сглаживает.
Каждый ответ оценивается по 5 измерениям (1–4 балла): педагогическое качество, качество русского языка, фактическая точность, практичность, знание российского контекста. Также добавляется 6-е измерение: использование чувашского языка.
Результаты: общий рейтинг
|
# |
Модель |
Общий |
Образование |
Чувашский |
Тип |
|---|---|---|---|---|---|
|
1 |
Gemini 3.1 Pro |
3.42 |
3.51 |
3.19 |
Closed |
|
2 |
Claude Opus 4.6 |
3.24 |
3.36 |
2.98 |
Closed |
|
3 |
Claude Sonnet 4.6 |
3.22 |
3.34 |
2.95 |
Closed |
|
4 |
Gemini 3.1 Flash Lite |
3.22 |
3.33 |
2.94 |
Closed |
|
5 |
Gemini 2.5 Pro |
3.21 |
3.31 |
2.98 |
Closed |
|
6 |
DeepSeek V3.2 |
3.15 |
3.28 |
2.85 |
Open |
|
7 |
GLM 5 |
3.15 |
3.28 |
2.84 |
Closed |
|
8 |
Mistral Large 3 |
3.14 |
3.28 |
2.81 |
Open |
|
9 |
GPT-5.4 |
3.09 |
3.23 |
2.78 |
Closed |
|
10 |
GPT-5.4 Mini |
2.99 |
3.19 |
2.51 |
Closed |
Полная таблица (22 модели)
|
# |
Модель |
Общий |
Образование |
Чувашский |
Тип |
|---|---|---|---|---|---|
|
11 |
Gemini 2.5 Flash |
2.99 |
3.03 |
2.88 |
Closed |
|
12 |
Qwen3.5 27B |
2.93 |
3.09 |
2.54 |
Open |
|
13 |
Grok 4.1 Fast |
2.87 |
3.14 |
2.21 |
Closed |
|
14 |
Qwen3 235B A22B |
2.72 |
3.04 |
1.97 |
Open |
|
15 |
GLM 4.7 Flash |
2.70 |
2.82 |
2.17 |
Open |
|
16 |
Qwen3 32B |
2.58 |
2.91 |
1.81 |
Open |
|
17 |
Llama 4 Maverick |
2.55 |
2.64 |
2.33 |
Open |
|
18 |
Qwen3 14B |
2.42 |
2.73 |
1.70 |
Open |
|
19 |
Qwen3 8B |
2.36 |
2.63 |
1.72 |
Open |
|
20 |
Command A |
2.25 |
2.44 |
1.79 |
Open |
|
21 |
Phi-4 14B |
1.63 |
1.68 |
1.51 |
Open |
Несколько наблюдений:
Gemini 3.1 Pro — неожиданный лидер. Не Claude, не GPT. Google. Самая сильная модель и по знаниям ФГОС, и по чувашскому одновременно.
GPT-5.4 — только 9-е место. Новейший флагман OpenAI уступает моделям Google и Anthropic на задачах для российских учителей.
Open-source отстаёт на 18%. Средний балл закрытых моделей: 3.30. Открытых: 2.80. Лучший открытый — DeepSeek V3.2 (3.28), почти догоняет топовый вариант.
ChuvashBench: вот тут всё плохо
А теперь главное. Модуль D — 15 промптов на чувашском языке: переводы, упражнения, грамматика, культурный контекст.
Распределение оценок точности чувашского (судья GPT-5.4):
|
Уровень |
Значение |
Моделей |
|---|---|---|
|
>3.0 |
В основном правильно |
0 |
|
2.0–3.0 |
Смесь правильного и выдуманного |
3 |
|
1.0–2.0 |
В основном галлюцинации |
14 |
|
=1.0 |
Полная галлюцинация |
5 |
Ни одна модель не набрала выше 3.0. Лучшие — Claude Opus, GPT-5.4 и Gemini 3.1 Pro — получили 2.1 из 4.0. Часть слов правильные (например, «Салам» — привет), часть — полностью выдуманные.
Пять моделей — все варианты Qwen3 и Phi-4 — получили ровно 1.0 на каждом промпте. Они генерируют текст, который выглядит как чувашский, но не является им.
А ведь чувашский — язык 1.1 миллиона человек. Официальный язык Чувашской Республики. На нём ведётся обучение в школах. ЮНЕСКО классифицирует его как «определённо находящийся под угрозой исчезновения». И ни одна нейросеть в мире не умеет на нём нормально работать.
При этом данные для обучения существуют: 2.9 миллиона предложений на чувашском и 1.4 миллиона параллельных чувашско-русских пар на HuggingFace под лицензией CC0 (Антонов, 2024). Проблема не в данных — в приоритетах разработчиков моделей.
Что это значит для школ
Качество: Передовые модели дают 3.0–3.5 из 4.0 для планирования уроков. Достаточно для черновика, но нужна доработка учителем.
152-ФЗ: Для школ, где данные учеников не могут покидать сервер, лучший self-hosted вариант — Qwen3.5 27B (3.09 баллов, 18 ГБ VRAM). Разрыв с лидером — 12%. Компромисс, но приемлемый.
Региональные языки: Если ваша школа в Чувашии, Татарстане, Башкирии — у вас нет ИИ-инструмента для родного языка. Ноль. Это проблема, которую не решит ни одна существующая модель.
Что дальше
Мы работаем над ChuvashLM — первой моделью для чувашского языка на основе Qwen3-32B. В пилоте развернём в школе локально для учителей. Но это тема отдельной статьи.
EduBench-RU — открытый бенчмарк. Все промпты, результаты и код:
GitHub: github.com/csylabs-org/edubench-ru
Если вы разрабатываете модели для русского языка — протестируйте на наших промптах. Если вы носитель чувашского — помогите валидировать результаты ChuvashBench. Пишите в комментариях или на daniel@csylabs.com.
Даниил Иванов — основатель ООО «ЛИИ» (Чебоксары), AI-решения для спорта, образования и культуры. Более 10 лет в инновациях в спорте.
Автор: daniel_ivanov


