AI Обзор лучших API для распознавания речи 2026

  • Автор темы Автор темы AI
  • Дата начала Дата начала

AI

Команда форума
Редактор
Регистрация
23 Авг 2023
Сообщения
3,969
Реакции
0
Баллы
36
Ofline
95ce8d297c571d731a6af798ef9b5b04.png

tl;dr к сегодняшней статье

Всем снова привет! В прошлом году мы сравнивали решения для транскрибации речи, и с тех пор многое изменилось. Большинство провайдеров выпустили новые модели, много у кого появились новые фичи, и я решил обновить статью. Если вы - бизнес и вам нужен надежный API, или если вы просто энтузиаст, и вам интересно подобрать решение для себя, добро пожаловать!

Как проверяю качество


Для замера качества провайдеров, я собрал бенчмарк из 20 видео с ютуба на разных языках с авторскими субтитрами. Я понимаю, что в них есть описания звуков, а не только слова, но цель статьи - замерить относительную ошибку между провайдерами и найти лучшего. Замерять буду метрику Word Error Rate (WER), и если запрос в API вернул ошибку, ставлю WER = 1.0, так как это равнозначно пустому ответу. На этот раз я включил в бенчмарк 3 видеоурока английского, там примерно 30% слов на английском, остальное - на русском. Добавил их, чтобы проверить, насколько хорошо модели могут менять языки во время генерации. Также в конце будет табличка, где я сравню только российских провайдеров на русских записях. Тестить буду на ссылке на файл в S3, чтобы сеть не влияла на результат (но те провайдеры, которые поддерживают только отправку файла, придется проверить файлом).

Провайдеры

fa99d905da6e3a5eba312b7cda6fae76.jpeg

Заграничные решения


  • ElevenLabs (Scribe v2 модель) - те самые гении озвучки текста, посмотрим, насколько хорошо они решили обратную задачу. За год они успели уже две модели выпустить, буду тестировать только последнюю (м-да, я бы еще в 2030 году статью написал). Есть диаризация (разделение речи на спикеров), временные метки слов, NER (извлечение имен собственных) и мультиязычность.


  • Deepgram (Nova 3 модель) - провайдер с самым щедрым Free Tier и с очень богатым функционалом. Есть и диаризация, и speech-to-speech агенты, и LLMки прикручены, и чего только у них нет.


  • AssemblyAI (2 и 3 Pro модели) - в прошлом году у них были проблемы с определением языка, посмотрим, поменялось ли что-то. Недавно выкатили новую модель (3 Pro), но она поддерживает меньше языков, и русский в сделку не входит. В документации написано, мол, используйте сразу две, а там в зависимости от языка будет выбираться модель. Сомнительно, но окэй. В коде это выглядит вот так:

    config = aai.TranscriptionConfig(
    speech_models=["universal-3-pro", "universal-2"],
    )

  • Fireworks (large-v3 модель) - в прошлом году были самыми быстрыми и почти самыми точными, и цены у них совсем не кусались. Диаризация и временные метки слов в комплекте.


  • Groq (turbo модель) - провайдер, который работает на in-house железе, обещает адские скорости, и имеет самую низкую цену за минуту среди всех перечисленных провайдеров. Функционал, конечно, скудный, отправка только файлом, ссылки не поддерживают, диаризации нет и LLM тоже нет.


  • Speechmatics (Enhanced модель) - нашел недавно в интернете, уже давно на рынке, тоже богатый функционал. Дороговаты, но у них свои модели, посмотрим, оправдает ли это цену.


  • Gladia (Solaria-1 модель) - говорят, что смогли натренировать Whisper и лишить его всех галлюцинаций, не потеряв в качестве. У них самая высокая цена среди всех зарубежных провайдеров в этом списке, посмотрим, обосновано ли это.
Российские решения


  • Yandex SpeechKit - на этот раз, я понял как работает их решение и смогу протестить его уже по-нормальному. Есть диаризация, обработка LLM, удаление нецензурной лексики, богатый функционал, в общем. Единственное, что я думал, что можно потестировать за бесплатно, но потом увидел цветные столбики во вкладке "Потребление и оплата" :-(


  • Шопот - проверим, что у них изменилось за прошлый год. Тоже много функционала - диаризация, LLM-обработка, временные метки и еще интерфейс красивый.


  • Nexara - есть диаризация и LLM-постпроцессинг, уже не просто голый API, как был раньше. Не такой богатый функционал, как у Яндекса или Deepgram, но и цены ниже. Посмотрим на их качество транскрибации, в прошлом году они на бенчмарке опередили конкурентов.


  • Palatine (highspeed модель) - обещают высокую скорость и качество. На лэндинге сравнивают свое решение с другими моделями, и по качеству проигрывают только AssemblyAI и ElevenLabs. Также, есть диаризация и временные метки, но LLM обработку не увидел.


  • Sber - их буду тестировать только на русском языке, так как у них нет такой же богатой поддержки языков, как у всех остальных провайдеров. Опенсорс у Сбера отличный, посмотрим, как с API у них вопрос обстоит. В функционале API даже заявлено определение эмоций, интересно.
Нюансы


Однако же, есть парочка нюансов, про которые хотелось бы рассказать, перед тем как перейдем к результатам.


  • Провайдер Groq, к сожалению, не поддерживает файлы больше 25 МБ, и мне пришлось нарезать файлы перед их отправкой. При склеивании уже теряется точность (на стыке чанков могли потеряться слова), и из-за этого могло ухудшиться качество.


  • Провайдер Шопот, к сожалению, вернул ошибку на одном из файлов. Я попробовал несколько раз, и каждый раз возвращалась Server Error. Также, меня немного выбесило неприятно удивило, что почему-то нельзя пользоваться API, если у тебя осталось менее 60 минут на аккаунте. А каждая минута на самом дешевом плане стоит 8 (!) рублей. В табличке я укажу цену в 2 руб / мин, потому что у них на сайте написано, что цены от 2 руб / мин, но в планах я таких низких цен не увидел. Может при персональном обращении и больших объемах они вам сделают такую скидку.
Результаты


Сразу без прелюдий перейдем к сравнению скорости и точности провайдеров:

021ba751fc6faf95de2fc588911b2c00.png

Скорость / точность - лучшие решения в зеленом

Scribe v2 показал самую лучшую точность, затем идет комбинация из двух моделей AssemblyAI (на русском языке работает только 2 модель, 3 Pro отработала на остальных языках). Третье почетное место по точности занял русский провайдер Nexarа, и я не знаю, чем они кормят свои видеокарты, что при хорошей точности они получают такую скорость обработки. Видимо, из-за того что сервера в России, и из-за использования ссылок на S3 в Яндекс облаке, задержка на загрузку файла получилась гораздо меньше, чем у зарубежных провайдеров. Но тем не менее, запись длиной в час они обработали всего за 6 секунд. Deepgram тоже стоит проверить на допинг.

Теперь самая, наверное, важная картинка этой статьи - сравнение цены и точности моделей:

f8e056cfa3e6775f2ae8bc42062266e9.png

Цена / точность - в зеленом прямоугольнике лучшие решения, в красном, к счастью, никого не оказалось

По соотношению цена / качество AssemblyAI явно побеждают, у них относительно небольшая цена и высокое качество. Gladia, конечно, красавчики, сделали почти самого дорогого провайдера и качеством их модель, мягко говоря, не обделена. Яндекс тоже разочаровал :-( Fireworks с Groq - короли низких цен. Однако, если бы мне пришлось между двумя этими провайдерами, я бы выбрал Fireworks, так как у них гораздо больше функционала: нет ограничения в 25 МБ, есть диаризация и есть возможность настроить модель под себя.

Также, держите табличку, короче говоря, Scribe v2 самый точный, Groq самый дешевый, а Nexara - самый быстрый:


Провайдер​

WER​

Скорость (×)​

Цена (₽/1000 мин)​

% ошибок​


ElevenLabs (Scribe v2)​



0.3879



26.6×​



667 ₽​



—​



AssemblyAI (2 / 3 Pro)​



0.3974​



28.5×​



250 ₽​



—​



🇷🇺 Nexara​



0.4080​



235.0×



360 ₽​



—​



AssemblyAI​



0.4157​



39.8×​



250 ₽​



—​



🇷🇺 Palatine (highspeed)​



0.4412​



51.0×​



300 ₽​



—​



Deepgram (Nova 3)​



0.4492​



128.8×​



430 ₽​



—​



Groq (turbo)​



0.4547​



102.1×​



60 ₽



—​



Fireworks (large-v3)​



0.4569​



112.2×​



150 ₽​



—​



🇷🇺 Shopot​



0.4677​



21.7×​



2000 ₽​



5%​



Speechmatics (Enhanced)​



0.4719​



10.7×​



670 ₽​



—​



Gladia​



0.5728​



32.4×​



833 ₽​



—​



🇷🇺 Yandex SpeechKit​



0.6570​



29.9×​



650 ₽​



—​

Тест на русском


Теперь давайте проверим качество только на русских записях только российских провайдеров. Для теста просто взял русские записи из бенчмарка, дополнительных тестов не проводил.


Провайдер​

WER​

Скорость (×)​

Цена (₽/1000 мин)​

% ошибок​


Nexara​



0.3909​



201.6×​



360 ₽​



—​



Palatine (highspeed)​



0.4140​



45.6×​



300 ₽​



—​



Shopot​



0.4442​



20.5×​



2000 ₽​



—​



Sber API​



0.4481​



9.7×​



600 ₽​



—​



Yandex SpeechKit​



0.5496​



29.6×​



650 ₽​



—​


Забавно получилось, что российские стартапы, которые, скорее всего, просто раздают натренированные open source модели, в итоге имеют более высокое качество, чем Яндекс и Сбер. И еще мне показалось, что у Сбера на API модель хуже, чем их же опенсорсные решения. Странно, в общем.

Вывод

217a0aeb752c2af5c35ffd21862d9993.jpeg


Конкретного победителя, *барабанная дробь*, нет. Если вам нужно самое лучшее качество и вы не в России, берите ElevenLabs. Если же вам нужна высокая скорость и отличное качество, пользуйтесь Nexara. Если вы хотите порезать стоимость транскрибации в несколько раз, и вам не очень важно высокое качество, используйте Groq. Иными словами, тестируйте на своих данных и не верьте ноунеймам из интернета 🙂

Ссылки


Буду рад присоединиться к обсуждению в комментариях, может забыл про какого-то провайдера 🙂
 
Назад
Сверху Снизу
Яндекс.Метрика Рейтинг@Mail.ru