AI Обзор лучших API для распознавания речи 2026

AI · 10 Фев 2026

tl;dr к сегодняшней статье

Всем снова привет! В прошлом году мы сравнивали решения для транскрибации речи, и с тех пор многое изменилось. Большинство провайдеров выпустили новые модели, много у кого появились новые фичи, и я решил обновить статью. Если вы - бизнес и вам нужен надежный API, или если вы просто энтузиаст, и вам интересно подобрать решение для себя, добро пожаловать!

Как проверяю качество

Для замера качества провайдеров, я собрал бенчмарк из 20 видео с ютуба на разных языках с авторскими субтитрами. Я понимаю, что в них есть описания звуков, а не только слова, но цель статьи - замерить относительную ошибку между провайдерами и найти лучшего. Замерять буду метрику Word Error Rate (WER), и если запрос в API вернул ошибку, ставлю WER = 1.0, так как это равнозначно пустому ответу. На этот раз я включил в бенчмарк 3 видеоурока английского, там примерно 30% слов на английском, остальное - на русском. Добавил их, чтобы проверить, насколько хорошо модели могут менять языки во время генерации. Также в конце будет табличка, где я сравню только российских провайдеров на русских записях. Тестить буду на ссылке на файл в S3, чтобы сеть не влияла на результат (но те провайдеры, которые поддерживают только отправку файла, придется проверить файлом).

Провайдеры

Заграничные решения

ElevenLabs (Scribe v2 модель) - те самые гении озвучки текста, посмотрим, насколько хорошо они решили обратную задачу. За год они успели уже две модели выпустить, буду тестировать только последнюю (м-да, я бы еще в 2030 году статью написал). Есть диаризация (разделение речи на спикеров), временные метки слов, NER (извлечение имен собственных) и мультиязычность.
Deepgram (Nova 3 модель) - провайдер с самым щедрым Free Tier и с очень богатым функционалом. Есть и диаризация, и speech-to-speech агенты, и LLMки прикручены, и чего только у них нет.
AssemblyAI (2 и 3 Pro модели) - в прошлом году у них были проблемы с определением языка, посмотрим, поменялось ли что-то. Недавно выкатили новую модель (3 Pro), но она поддерживает меньше языков, и русский в сделку не входит. В документации написано, мол, используйте сразу две, а там в зависимости от языка будет выбираться модель. Сомнительно, но окэй. В коде это выглядит вот так:

config = aai.TranscriptionConfig(
speech_models=["universal-3-pro", "universal-2"],
)
Fireworks (large-v3 модель) - в прошлом году были самыми быстрыми и почти самыми точными, и цены у них совсем не кусались. Диаризация и временные метки слов в комплекте.
Groq (turbo модель) - провайдер, который работает на in-house железе, обещает адские скорости, и имеет самую низкую цену за минуту среди всех перечисленных провайдеров. Функционал, конечно, скудный, отправка только файлом, ссылки не поддерживают, диаризации нет и LLM тоже нет.
Speechmatics (Enhanced модель) - нашел недавно в интернете, уже давно на рынке, тоже богатый функционал. Дороговаты, но у них свои модели, посмотрим, оправдает ли это цену.
Gladia (Solaria-1 модель) - говорят, что смогли натренировать Whisper и лишить его всех галлюцинаций, не потеряв в качестве. У них самая высокая цена среди всех зарубежных провайдеров в этом списке, посмотрим, обосновано ли это.

Российские решения

Yandex SpeechKit - на этот раз, я понял как работает их решение и смогу протестить его уже по-нормальному. Есть диаризация, обработка LLM, удаление нецензурной лексики, богатый функционал, в общем. Единственное, что я думал, что можно потестировать за бесплатно, но потом увидел цветные столбики во вкладке "Потребление и оплата" :-(
Шопот - проверим, что у них изменилось за прошлый год. Тоже много функционала - диаризация, LLM-обработка, временные метки и еще интерфейс красивый.
Nexara - есть диаризация и LLM-постпроцессинг, уже не просто голый API, как был раньше. Не такой богатый функционал, как у Яндекса или Deepgram, но и цены ниже. Посмотрим на их качество транскрибации, в прошлом году они на бенчмарке опередили конкурентов.
Palatine (highspeed модель) - обещают высокую скорость и качество. На лэндинге сравнивают свое решение с другими моделями, и по качеству проигрывают только AssemblyAI и ElevenLabs. Также, есть диаризация и временные метки, но LLM обработку не увидел.
Sber - их буду тестировать только на русском языке, так как у них нет такой же богатой поддержки языков, как у всех остальных провайдеров. Опенсорс у Сбера отличный, посмотрим, как с API у них вопрос обстоит. В функционале API даже заявлено определение эмоций, интересно.

Нюансы

Однако же, есть парочка нюансов, про которые хотелось бы рассказать, перед тем как перейдем к результатам.

Провайдер Groq, к сожалению, не поддерживает файлы больше 25 МБ, и мне пришлось нарезать файлы перед их отправкой. При склеивании уже теряется точность (на стыке чанков могли потеряться слова), и из-за этого могло ухудшиться качество.
Провайдер Шопот, к сожалению, вернул ошибку на одном из файлов. Я попробовал несколько раз, и каждый раз возвращалась Server Error. Также, меня ~~немного выбесило~~ неприятно удивило, что почему-то нельзя пользоваться API, если у тебя осталось менее 60 минут на аккаунте. А каждая минута на самом дешевом плане стоит 8 (!) рублей. В табличке я укажу цену в 2 руб / мин, потому что у них на сайте написано, что цены от 2 руб / мин, но в планах я таких низких цен не увидел. Может при персональном обращении и больших объемах они вам сделают такую скидку.

Результаты

Сразу без прелюдий перейдем к сравнению скорости и точности провайдеров:

Скорость / точность - лучшие решения в зеленом

Scribe v2 показал самую лучшую точность, затем идет комбинация из двух моделей AssemblyAI (на русском языке работает только 2 модель, 3 Pro отработала на остальных языках). Третье почетное место по точности занял русский провайдер Nexarа, и я не знаю, чем они кормят свои видеокарты, что при хорошей точности они получают такую скорость обработки. Видимо, из-за того что сервера в России, и из-за использования ссылок на S3 в Яндекс облаке, задержка на загрузку файла получилась гораздо меньше, чем у зарубежных провайдеров. Но тем не менее, запись длиной в час они обработали всего за 6 секунд. Deepgram тоже стоит проверить на допинг.

Теперь самая, наверное, важная картинка этой статьи - сравнение цены и точности моделей:

Цена / точность - в зеленом прямоугольнике лучшие решения, в красном, к счастью, никого не оказалось

По соотношению цена / качество AssemblyAI явно побеждают, у них относительно небольшая цена и высокое качество. Gladia, конечно, красавчики, сделали почти самого дорогого провайдера и качеством их модель, мягко говоря, не обделена. Яндекс тоже разочаровал :-( Fireworks с Groq - короли низких цен. Однако, если бы мне пришлось между двумя этими провайдерами, я бы выбрал Fireworks, так как у них гораздо больше функционала: нет ограничения в 25 МБ, есть диаризация и есть возможность настроить модель под себя.

Также, держите табличку, короче говоря, Scribe v2 самый точный, Groq самый дешевый, а Nexara - самый быстрый:

Провайдер	WER	Скорость (×)	Цена (₽/1000 мин)	% ошибок
ElevenLabs (Scribe v2)	0.3879	26.6×	667 ₽	—
AssemblyAI (2 / 3 Pro)	0.3974	28.5×	250 ₽	—
🇷🇺 Nexara	0.4080	235.0×	360 ₽	—
AssemblyAI	0.4157	39.8×	250 ₽	—
🇷🇺 Palatine (highspeed)	0.4412	51.0×	300 ₽	—
Deepgram (Nova 3)	0.4492	128.8×	430 ₽	—
Groq (turbo)	0.4547	102.1×	60 ₽	—
Fireworks (large-v3)	0.4569	112.2×	150 ₽	—
🇷🇺 Shopot	0.4677	21.7×	2000 ₽	5%
Speechmatics (Enhanced)	0.4719	10.7×	670 ₽	—
Gladia	0.5728	32.4×	833 ₽	—
🇷🇺 Yandex SpeechKit	0.6570	29.9×	650 ₽	—

Тест на русском

Теперь давайте проверим качество только на русских записях только российских провайдеров. Для теста просто взял русские записи из бенчмарка, дополнительных тестов не проводил.

Провайдер	WER	Скорость (×)	Цена (₽/1000 мин)	% ошибок
Nexara	0.3909	201.6×	360 ₽	—
Palatine (highspeed)	0.4140	45.6×	300 ₽	—
Shopot	0.4442	20.5×	2000 ₽	—
Sber API	0.4481	9.7×	600 ₽	—
Yandex SpeechKit	0.5496	29.6×	650 ₽	—

Забавно получилось, что российские стартапы, которые, скорее всего, просто раздают натренированные open source модели, в итоге имеют более высокое качество, чем Яндекс и Сбер. И еще мне показалось, что у Сбера на API модель хуже, чем их же опенсорсные решения. Странно, в общем.

Вывод

Конкретного победителя, *барабанная дробь*, нет. Если вам нужно самое лучшее качество и вы не в России, берите ElevenLabs. Если же вам нужна высокая скорость и отличное качество, пользуйтесь Nexara. Если вы хотите порезать стоимость транскрибации в несколько раз, и вам не очень важно высокое качество, используйте Groq. Иными словами, тестируйте на своих данных и не верьте ноунеймам из интернета 🙂

Ссылки

GitHub - bobastia/habr-benchmark-2026 https://github.com/bobastia/habr-benchmark-2026 - репозиторий с более подробными таблицами из статьи;
Открытые модели для распознавания русской речи 2025 https://alphacephei.com/nsh/2025/04/18/russian-models.html - отличное сравнение open source моделей на русских данных от создателей модели Vosk;
Speech to Text (ASR) Providers Leaderboard & Comparison | Artificial Analysis https://artificialanalysis.ai/speech-to-text - сравнение провайдеров на сайте Artificial Analysis;
Обзор лучших API для транскрибации речи 2025 https://habr.com/ru/articles/886924/ - прошлогодняя статья.

Буду рад присоединиться к обсуждению в комментариях, может забыл про какого-то провайдера 🙂