AI Мы протестировали 22 нейросети на задачах для российских учителей. Ни одна не знает чувашский

AI · Сегодня в 06:06

Я живу в Чебоксарах и запускаю ИИ-пилот в местной школе. Когда понадобилось проверить, какие LLM действительно способны помочь российским учителям в их работе — оказалось, что бенчмарка для этого не существует. MERA тестирует, может ли модель решить задания ЕГЭ. EduBench — только английский и китайский. Российское образование — это ФГОС, технологические карты уроков, ОГЭ, чувашский язык — и ничего из этого ни один бенчмарк не покрывает.

Мы сделали EduBench-RU — первый бенчмарк для оценки LLM на задачах российского образования в школах. 50 промптов, 22 модели, двойная оценка. И нашли кое-что неожиданное.

Что внутри

50 промптов разбиты на 4 модуля:

Модуль	Кол-во промптов	Что тестируем
A. Педагогика по ФГОС	15	Технологические карты уроков, объяснения для учеников, анализ результатов ОГЭ
B. Предметные знания	10	Математика, русский язык, физика, биология, история, литература
C. Учитель-копайлот	10	КТП, характеристики учеников, родительские собрания, рубрики, инклюзия
D. ChuvashBench	15	Перевод, обучение чувашскому, культурный контекст, билингвальные уроки

Модули A–C проверяют, может ли модель работать как помощник учителя в реальной российской школе. Модуль D — отдельная история, о которой ниже.

22 модели: от GPT-5.4 до GigaChat

Мы взяли все актуальные модели (март 2026):

Frontier: Claude Opus 4.6, Claude Sonnet 4.6, GPT-5.4, Gemini 3.1 Pro, Gemini 2.5 Pro
Mid-tier: GPT-5.4 Mini, Gemini 2.5 Flash, Grok 4.1 Fast, Kimi K2.5, GLM 5, DeepSeek V3.2
Open-source: Qwen3 (8B, 14B, 32B, 235B), Qwen3.5 27B, Mistral Large 3, Llama 4 Maverick, Phi-4

Все модели тестировались через OpenRouter API с одинаковыми параметрами: max_tokens=8192, temperature=0.7, один и тот же системный промпт на русском.

Стоимость эксперимента: 1500 рублей за 2,4 миллиона выходных токенов.

Как оценивали

Вместо ручной оценки мы использовали LLM-as-judge — подход из оригинального EduBench. Два судьи:

GPT-5.4 (OpenAI) — основной судья
Claude Sonnet 4.6 (Anthropic) — второй судья

Зачем два? Чтобы поймать предвзятость. И мы её поймали: Sonnet систематически ставит на +0.49 балла выше, чем GPT. Особенно своим же моделям Claude. Ожидаемо. Консенсус (среднее двух судей) это сглаживает.

Каждый ответ оценивается по 5 измерениям (1–4 балла): педагогическое качество, качество русского языка, фактическая точность, практичность, знание российского контекста. Также добавляется 6-е измерение: использование чувашского языка.

Результаты: общий рейтинг

#	Модель	Общий	Образование	Чувашский	Тип
1	Gemini 3.1 Pro	3.42	3.51	3.19	Closed
2	Claude Opus 4.6	3.24	3.36	2.98	Closed
3	Claude Sonnet 4.6	3.22	3.34	2.95	Closed
4	Gemini 3.1 Flash Lite	3.22	3.33	2.94	Closed
5	Gemini 2.5 Pro	3.21	3.31	2.98	Closed
6	DeepSeek V3.2	3.15	3.28	2.85	Open
7	GLM 5	3.15	3.28	2.84	Closed
8	Mistral Large 3	3.14	3.28	2.81	Open
9	GPT-5.4	3.09	3.23	2.78	Closed
10	GPT-5.4 Mini	2.99	3.19	2.51	Closed

Полная таблица (22 модели)

#	Модель	Общий	Образование	Чувашский	Тип
11	Gemini 2.5 Flash	2.99	3.03	2.88	Closed
12	Qwen3.5 27B	2.93	3.09	2.54	Open
13	Grok 4.1 Fast	2.87	3.14	2.21	Closed
14	Qwen3 235B A22B	2.72	3.04	1.97	Open
15	GLM 4.7 Flash	2.70	2.82	2.17	Open
16	Qwen3 32B	2.58	2.91	1.81	Open
17	Llama 4 Maverick	2.55	2.64	2.33	Open
18	Qwen3 14B	2.42	2.73	1.70	Open
19	Qwen3 8B	2.36	2.63	1.72	Open
20	Command A	2.25	2.44	1.79	Open
21	Phi-4 14B	1.63	1.68	1.51	Open

Несколько наблюдений:

Gemini 3.1 Pro — неожиданный лидер. Не Claude, не GPT. Google. Самая сильная модель и по знаниям ФГОС, и по чувашскому одновременно.

GPT-5.4 — только 9-е место. Новейший флагман OpenAI уступает моделям Google и Anthropic на задачах для российских учителей.

Open-source отстаёт на 18%. Средний балл закрытых моделей: 3.30. Открытых: 2.80. Лучший открытый — DeepSeek V3.2 (3.28), почти догоняет топовый вариант.

ChuvashBench: вот тут всё плохо

А теперь главное. Модуль D — 15 промптов на чувашском языке: переводы, упражнения, грамматика, культурный контекст.

Распределение оценок точности чувашского (судья GPT-5.4):

Уровень	Значение	Моделей
>3.0	В основном правильно	0
2.0–3.0	Смесь правильного и выдуманного	3
1.0–2.0	В основном галлюцинации	14
=1.0	Полная галлюцинация	5

Ни одна модель не набрала выше 3.0. Лучшие — Claude Opus, GPT-5.4 и Gemini 3.1 Pro — получили 2.1 из 4.0. Часть слов правильные (например, «Салам» — привет), часть — полностью выдуманные.

Пять моделей — все варианты Qwen3 и Phi-4 — получили ровно 1.0 на каждом промпте. Они генерируют текст, который выглядит как чувашский, но не является им.

А ведь чувашский — язык 1.1 миллиона человек. Официальный язык Чувашской Республики. На нём ведётся обучение в школах. ЮНЕСКО классифицирует его как «определённо находящийся под угрозой исчезновения». И ни одна нейросеть в мире не умеет на нём нормально работать.

При этом данные для обучения существуют: 2.9 миллиона предложений на чувашском и 1.4 миллиона параллельных чувашско-русских пар на HuggingFace под лицензией CC0 (Антонов, 2024). Проблема не в данных — в приоритетах разработчиков моделей.

Что это значит для школ

Качество: Передовые модели дают 3.0–3.5 из 4.0 для планирования уроков. Достаточно для черновика, но нужна доработка учителем.

152-ФЗ: Для школ, где данные учеников не могут покидать сервер, лучший self-hosted вариант — Qwen3.5 27B (3.09 баллов, 18 ГБ VRAM). Разрыв с лидером — 12%. Компромисс, но приемлемый.

Региональные языки: Если ваша школа в Чувашии, Татарстане, Башкирии — у вас нет ИИ-инструмента для родного языка. Ноль. Это проблема, которую не решит ни одна существующая модель.

Что дальше

Мы работаем над ChuvashLM — первой моделью для чувашского языка на основе Qwen3-32B. В пилоте развернём в школе локально для учителей. Но это тема отдельной статьи.

EduBench-RU — открытый бенчмарк. Все промпты, результаты и код:

GitHub: github.com/csylabs-org/edubench-ru

Если вы разрабатываете модели для русского языка — протестируйте на наших промптах. Если вы носитель чувашского — помогите валидировать результаты ChuvashBench. Пишите в комментариях или на daniel@csylabs.com.

Даниил Иванов — основатель ООО «ЛИИ» (Чебоксары), AI-решения для спорта, образования и культуры. Более 10 лет в инновациях в спорте.

AI Мы протестировали 22 нейросети на задачах для российских учителей. Ни одна не знает чувашский

AI

Что внутри​

22 модели: от GPT-5.4 до GigaChat​

Как оценивали​

Результаты: общий рейтинг​

ChuvashBench: вот тут всё плохо​

Что это значит для школ​

Что дальше​