AI Мы протестировали 22 нейросети на задачах для российских учителей. Ни одна не знает чувашский

AI

Команда форума
Редактор
Регистрация
23 Авг 2023
Сообщения
3,969
Реакции
0
Баллы
36
Ofline
3371ce8d56be8e43bf4122b6e4030a4b


Я живу в Чебоксарах и запускаю ИИ-пилот в местной школе. Когда понадобилось проверить, какие LLM действительно способны помочь российским учителям в их работе — оказалось, что бенчмарка для этого не существует. MERA тестирует, может ли модель решить задания ЕГЭ. EduBench — только английский и китайский. Российское образование — это ФГОС, технологические карты уроков, ОГЭ, чувашский язык — и ничего из этого ни один бенчмарк не покрывает.

Мы сделали EduBench-RU — первый бенчмарк для оценки LLM на задачах российского образования в школах. 50 промптов, 22 модели, двойная оценка. И нашли кое-что неожиданное.

Что внутри​


50 промптов разбиты на 4 модуля:


Модуль​

Кол-во промптов​

Что тестируем​

A. Педагогика по ФГОС​

15​

Технологические карты уроков, объяснения для учеников, анализ результатов ОГЭ​

B. Предметные знания​

10​

Математика, русский язык, физика, биология, история, литература​

C. Учитель-копайлот​

10​

КТП, характеристики учеников, родительские собрания, рубрики, инклюзия​

D. ChuvashBench​

15​

Перевод, обучение чувашскому, культурный контекст, билингвальные уроки​

Модули A–C проверяют, может ли модель работать как помощник учителя в реальной российской школе. Модуль D — отдельная история, о которой ниже.

22 модели: от GPT-5.4 до GigaChat​


Мы взяли все актуальные модели (март 2026):


  • Frontier: Claude Opus 4.6, Claude Sonnet 4.6, GPT-5.4, Gemini 3.1 Pro, Gemini 2.5 Pro


  • Mid-tier: GPT-5.4 Mini, Gemini 2.5 Flash, Grok 4.1 Fast, Kimi K2.5, GLM 5, DeepSeek V3.2


  • Open-source: Qwen3 (8B, 14B, 32B, 235B), Qwen3.5 27B, Mistral Large 3, Llama 4 Maverick, Phi-4

Все модели тестировались через OpenRouter API с одинаковыми параметрами: max_tokens=8192, temperature=0.7, один и тот же системный промпт на русском.

Стоимость эксперимента: 1500 рублей за 2,4 миллиона выходных токенов.

Как оценивали​


Вместо ручной оценки мы использовали LLM-as-judge — подход из оригинального EduBench. Два судьи:


  • GPT-5.4 (OpenAI) — основной судья


  • Claude Sonnet 4.6 (Anthropic) — второй судья

Зачем два? Чтобы поймать предвзятость. И мы её поймали: Sonnet систематически ставит на +0.49 балла выше, чем GPT. Особенно своим же моделям Claude. Ожидаемо. Консенсус (среднее двух судей) это сглаживает.

Каждый ответ оценивается по 5 измерениям (1–4 балла): педагогическое качество, качество русского языка, фактическая точность, практичность, знание российского контекста. Также добавляется 6-е измерение: использование чувашского языка.

Результаты: общий рейтинг​


#​

Модель​

Общий​

Образование​

Чувашский​

Тип​

1​

Gemini 3.1 Pro​

3.42​

3.51​

3.19​

Closed​

2​

Claude Opus 4.6​

3.24​

3.36​

2.98​

Closed​

3​

Claude Sonnet 4.6​

3.22​

3.34​

2.95​

Closed​

4​

Gemini 3.1 Flash Lite​

3.22​

3.33​

2.94​

Closed​

5​

Gemini 2.5 Pro​

3.21​

3.31​

2.98​

Closed​

6​

DeepSeek V3.2​

3.15​

3.28​

2.85​

Open​

7​

GLM 5​

3.15​

3.28​

2.84​

Closed​

8​

Mistral Large 3​

3.14​

3.28​

2.81​

Open​

9​

GPT-5.4​

3.09​

3.23​

2.78​

Closed​

10​

GPT-5.4 Mini​

2.99​

3.19​

2.51​

Closed​
Полная таблица (22 модели)

#​

Модель​

Общий​

Образование​

Чувашский​

Тип​

11​

Gemini 2.5 Flash​

2.99​

3.03​

2.88​

Closed​

12​

Qwen3.5 27B​

2.93​

3.09​

2.54​

Open​

13​

Grok 4.1 Fast​

2.87​

3.14​

2.21​

Closed​

14​

Qwen3 235B A22B​

2.72​

3.04​

1.97​

Open​

15​

GLM 4.7 Flash​

2.70​

2.82​

2.17​

Open​

16​

Qwen3 32B​

2.58​

2.91​

1.81​

Open​

17​

Llama 4 Maverick​

2.55​

2.64​

2.33​

Open​

18​

Qwen3 14B​

2.42​

2.73​

1.70​

Open​

19​

Qwen3 8B​

2.36​

2.63​

1.72​

Open​

20​

Command A​

2.25​

2.44​

1.79​

Open​

21​

Phi-4 14B​

1.63​

1.68​

1.51​

Open​

Несколько наблюдений:

Gemini 3.1 Pro — неожиданный лидер. Не Claude, не GPT. Google. Самая сильная модель и по знаниям ФГОС, и по чувашскому одновременно.

GPT-5.4 — только 9-е место. Новейший флагман OpenAI уступает моделям Google и Anthropic на задачах для российских учителей.

Open-source отстаёт на 18%. Средний балл закрытых моделей: 3.30. Открытых: 2.80. Лучший открытый — DeepSeek V3.2 (3.28), почти догоняет топовый вариант.

ChuvashBench: вот тут всё плохо​


А теперь главное. Модуль D — 15 промптов на чувашском языке: переводы, упражнения, грамматика, культурный контекст.

Распределение оценок точности чувашского (судья GPT-5.4):


Уровень​

Значение​

Моделей​

>3.0​

В основном правильно​

0

2.0–3.0​

Смесь правильного и выдуманного​

3​

1.0–2.0​

В основном галлюцинации​

14​

=1.0​

Полная галлюцинация​

5

Ни одна модель не набрала выше 3.0. Лучшие — Claude Opus, GPT-5.4 и Gemini 3.1 Pro — получили 2.1 из 4.0. Часть слов правильные (например, «Салам» — привет), часть — полностью выдуманные.

Пять моделей — все варианты Qwen3 и Phi-4 — получили ровно 1.0 на каждом промпте. Они генерируют текст, который выглядит как чувашский, но не является им.

А ведь чувашский — язык 1.1 миллиона человек. Официальный язык Чувашской Республики. На нём ведётся обучение в школах. ЮНЕСКО классифицирует его как «определённо находящийся под угрозой исчезновения». И ни одна нейросеть в мире не умеет на нём нормально работать.

При этом данные для обучения существуют: 2.9 миллиона предложений на чувашском и 1.4 миллиона параллельных чувашско-русских пар на HuggingFace под лицензией CC0 (Антонов, 2024). Проблема не в данных — в приоритетах разработчиков моделей.

Что это значит для школ​


Качество: Передовые модели дают 3.0–3.5 из 4.0 для планирования уроков. Достаточно для черновика, но нужна доработка учителем.

152-ФЗ: Для школ, где данные учеников не могут покидать сервер, лучший self-hosted вариант — Qwen3.5 27B (3.09 баллов, 18 ГБ VRAM). Разрыв с лидером — 12%. Компромисс, но приемлемый.

Региональные языки: Если ваша школа в Чувашии, Татарстане, Башкирии — у вас нет ИИ-инструмента для родного языка. Ноль. Это проблема, которую не решит ни одна существующая модель.

Что дальше​


Мы работаем над ChuvashLM — первой моделью для чувашского языка на основе Qwen3-32B. В пилоте развернём в школе локально для учителей. Но это тема отдельной статьи.

EduBench-RU — открытый бенчмарк. Все промпты, результаты и код:

GitHub: github.com/csylabs-org/edubench-ru

Если вы разрабатываете модели для русского языка — протестируйте на наших промптах. Если вы носитель чувашского — помогите валидировать результаты ChuvashBench. Пишите в комментариях или на daniel@csylabs.com.



Даниил Иванов — основатель ООО «ЛИИ» (Чебоксары), AI-решения для спорта, образования и культуры. Более 10 лет в инновациях в спорте.
 
Назад
Сверху Снизу
Яндекс.Метрика Рейтинг@Mail.ru