- Регистрация
- 23 Авг 2023
- Сообщения
- 3,969
- Реакции
- 0
- Баллы
- 36
Ofline
Я живу в Чебоксарах и запускаю ИИ-пилот в местной школе. Когда понадобилось проверить, какие LLM действительно способны помочь российским учителям в их работе — оказалось, что бенчмарка для этого не существует. MERA тестирует, может ли модель решить задания ЕГЭ. EduBench — только английский и китайский. Российское образование — это ФГОС, технологические карты уроков, ОГЭ, чувашский язык — и ничего из этого ни один бенчмарк не покрывает.
Мы сделали EduBench-RU — первый бенчмарк для оценки LLM на задачах российского образования в школах. 50 промптов, 22 модели, двойная оценка. И нашли кое-что неожиданное.
Что внутри
50 промптов разбиты на 4 модуля:
Модуль | Кол-во промптов | Что тестируем |
|---|---|---|
A. Педагогика по ФГОС | 15 | Технологические карты уроков, объяснения для учеников, анализ результатов ОГЭ |
B. Предметные знания | 10 | Математика, русский язык, физика, биология, история, литература |
C. Учитель-копайлот | 10 | КТП, характеристики учеников, родительские собрания, рубрики, инклюзия |
D. ChuvashBench | 15 | Перевод, обучение чувашскому, культурный контекст, билингвальные уроки |
Модули A–C проверяют, может ли модель работать как помощник учителя в реальной российской школе. Модуль D — отдельная история, о которой ниже.
22 модели: от GPT-5.4 до GigaChat
Мы взяли все актуальные модели (март 2026):
Frontier: Claude Opus 4.6, Claude Sonnet 4.6, GPT-5.4, Gemini 3.1 Pro, Gemini 2.5 Pro
Mid-tier: GPT-5.4 Mini, Gemini 2.5 Flash, Grok 4.1 Fast, Kimi K2.5, GLM 5, DeepSeek V3.2
Open-source: Qwen3 (8B, 14B, 32B, 235B), Qwen3.5 27B, Mistral Large 3, Llama 4 Maverick, Phi-4
Все модели тестировались через OpenRouter API с одинаковыми параметрами:
max_tokens=8192, temperature=0.7, один и тот же системный промпт на русском.Стоимость эксперимента: 1500 рублей за 2,4 миллиона выходных токенов.
Как оценивали
Вместо ручной оценки мы использовали LLM-as-judge — подход из оригинального EduBench. Два судьи:
GPT-5.4 (OpenAI) — основной судья
Claude Sonnet 4.6 (Anthropic) — второй судья
Зачем два? Чтобы поймать предвзятость. И мы её поймали: Sonnet систематически ставит на +0.49 балла выше, чем GPT. Особенно своим же моделям Claude. Ожидаемо. Консенсус (среднее двух судей) это сглаживает.
Каждый ответ оценивается по 5 измерениям (1–4 балла): педагогическое качество, качество русского языка, фактическая точность, практичность, знание российского контекста. Также добавляется 6-е измерение: использование чувашского языка.
Результаты: общий рейтинг
# | Модель | Общий | Образование | Чувашский | Тип |
|---|---|---|---|---|---|
1 | Gemini 3.1 Pro | 3.42 | 3.51 | 3.19 | Closed |
2 | Claude Opus 4.6 | 3.24 | 3.36 | 2.98 | Closed |
3 | Claude Sonnet 4.6 | 3.22 | 3.34 | 2.95 | Closed |
4 | Gemini 3.1 Flash Lite | 3.22 | 3.33 | 2.94 | Closed |
5 | Gemini 2.5 Pro | 3.21 | 3.31 | 2.98 | Closed |
6 | DeepSeek V3.2 | 3.15 | 3.28 | 2.85 | Open |
7 | GLM 5 | 3.15 | 3.28 | 2.84 | Closed |
8 | Mistral Large 3 | 3.14 | 3.28 | 2.81 | Open |
9 | GPT-5.4 | 3.09 | 3.23 | 2.78 | Closed |
10 | GPT-5.4 Mini | 2.99 | 3.19 | 2.51 | Closed |
# | Модель | Общий | Образование | Чувашский | Тип |
|---|---|---|---|---|---|
11 | Gemini 2.5 Flash | 2.99 | 3.03 | 2.88 | Closed |
12 | Qwen3.5 27B | 2.93 | 3.09 | 2.54 | Open |
13 | Grok 4.1 Fast | 2.87 | 3.14 | 2.21 | Closed |
14 | Qwen3 235B A22B | 2.72 | 3.04 | 1.97 | Open |
15 | GLM 4.7 Flash | 2.70 | 2.82 | 2.17 | Open |
16 | Qwen3 32B | 2.58 | 2.91 | 1.81 | Open |
17 | Llama 4 Maverick | 2.55 | 2.64 | 2.33 | Open |
18 | Qwen3 14B | 2.42 | 2.73 | 1.70 | Open |
19 | Qwen3 8B | 2.36 | 2.63 | 1.72 | Open |
20 | Command A | 2.25 | 2.44 | 1.79 | Open |
21 | Phi-4 14B | 1.63 | 1.68 | 1.51 | Open |
Несколько наблюдений:
Gemini 3.1 Pro — неожиданный лидер. Не Claude, не GPT. Google. Самая сильная модель и по знаниям ФГОС, и по чувашскому одновременно.
GPT-5.4 — только 9-е место. Новейший флагман OpenAI уступает моделям Google и Anthropic на задачах для российских учителей.
Open-source отстаёт на 18%. Средний балл закрытых моделей: 3.30. Открытых: 2.80. Лучший открытый — DeepSeek V3.2 (3.28), почти догоняет топовый вариант.
ChuvashBench: вот тут всё плохо
А теперь главное. Модуль D — 15 промптов на чувашском языке: переводы, упражнения, грамматика, культурный контекст.
Распределение оценок точности чувашского (судья GPT-5.4):
Уровень | Значение | Моделей |
|---|---|---|
>3.0 | В основном правильно | 0 |
2.0–3.0 | Смесь правильного и выдуманного | 3 |
1.0–2.0 | В основном галлюцинации | 14 |
=1.0 | Полная галлюцинация | 5 |
Ни одна модель не набрала выше 3.0. Лучшие — Claude Opus, GPT-5.4 и Gemini 3.1 Pro — получили 2.1 из 4.0. Часть слов правильные (например, «Салам» — привет), часть — полностью выдуманные.
Пять моделей — все варианты Qwen3 и Phi-4 — получили ровно 1.0 на каждом промпте. Они генерируют текст, который выглядит как чувашский, но не является им.
А ведь чувашский — язык 1.1 миллиона человек. Официальный язык Чувашской Республики. На нём ведётся обучение в школах. ЮНЕСКО классифицирует его как «определённо находящийся под угрозой исчезновения». И ни одна нейросеть в мире не умеет на нём нормально работать.
При этом данные для обучения существуют: 2.9 миллиона предложений на чувашском и 1.4 миллиона параллельных чувашско-русских пар на HuggingFace под лицензией CC0 (Антонов, 2024). Проблема не в данных — в приоритетах разработчиков моделей.
Что это значит для школ
Качество: Передовые модели дают 3.0–3.5 из 4.0 для планирования уроков. Достаточно для черновика, но нужна доработка учителем.
152-ФЗ: Для школ, где данные учеников не могут покидать сервер, лучший self-hosted вариант — Qwen3.5 27B (3.09 баллов, 18 ГБ VRAM). Разрыв с лидером — 12%. Компромисс, но приемлемый.
Региональные языки: Если ваша школа в Чувашии, Татарстане, Башкирии — у вас нет ИИ-инструмента для родного языка. Ноль. Это проблема, которую не решит ни одна существующая модель.
Что дальше
Мы работаем над ChuvashLM — первой моделью для чувашского языка на основе Qwen3-32B. В пилоте развернём в школе локально для учителей. Но это тема отдельной статьи.
EduBench-RU — открытый бенчмарк. Все промпты, результаты и код:
GitHub: github.com/csylabs-org/edubench-ru
Если вы разрабатываете модели для русского языка — протестируйте на наших промптах. Если вы носитель чувашского — помогите валидировать результаты ChuvashBench. Пишите в комментариях или на daniel@csylabs.com.
Даниил Иванов — основатель ООО «ЛИИ» (Чебоксары), AI-решения для спорта, образования и культуры. Более 10 лет в инновациях в спорте.