- BrainTools - https://www.braintools.ru -

ElevenLabs представил автономную модель преобразования речи в текст Scribe

ElevenLabs [1], стартап в сфере искусственного интеллекта [2], который только что получил 180 миллионов долларов [3] в рамках мегафинансирования, в первую очередь известен своим мастерством в создании аудио. Компания сделала шаг в другом технологическом направлении, выпустив свою первую автономную модель преобразования речи в текст под названием Scribe.

ElevenLabs представил автономную модель преобразования речи в текст Scribe - 1

Стартап, стоимость которого оценивается в 3,3 миллиарда долларов [3], помог многим другим компаниям предоставлять услуги преобразования речи в текст благодаря своей обширной библиотеке голосов. Однако сейчас компания стремится выйти на рынок распознавания речи и конкурировать с такими компаниями, как Gladia [4]Speechmatics [5]AssemblyAI [6]Deepgram [5] и моделями Whisper от OpenAI.

Модель Scribe от ElevenLabs поддерживает более 99 языков на момент запуска. Компания относит более 25 языков к категории с высокой точностью, в которой количество ошибок в словах составляет менее 5%. В этот список входят английский (заявленная точность 97%), французский, немецкий, хинди, индонезийский, японский, каннада, малаялам, польский, португальский, испанский и вьетнамский. Другие языки распределены по разным категориям с высоким (5–10% ошибок в словах), хорошим (10–20% ошибок в словах) и средним (25–50% ошибок в словах) процентом ошибок в словах.

Компания заявила, что модель превзошла Google Gemini 2.0 Flash и Whisper Large V3 на нескольких языках в тестах FLEURS и Common Voice.

ElevenLabs представил автономную модель преобразования речи в текст Scribe - 2

Компания ElevenLabs разработала компонент преобразования речи в текст для своей платформы диалоговых агентов на основе ИИ, которая была выпущена в прошлом году. Однако это первый раз, когда компания выпускает автономную модель распознавания речи [7]. В беседе с TechCrunch в прошлом месяце генеральный директор Мати Станишевски рассказал об улучшении моделей распознавания речи.

«Нам важно глубже вникнуть в суть ваших слов. Мы работаем над тем, чтобы отойти от простого создания контента и перейти к пониманию и расшифровке речи, — сказал Станишевски в то время. — Многие говорят, что преобразование речи в текст — это решённая проблема. Но для многих языков это не так. Мы считаем, что можем создавать более качественные модели распознавания речи, потому что у нас есть собственные команды, которые аннотируют данные и быстро дают нам обратную связь».

Модель также оснащена интеллектуальным диктором, который сообщает, кто говорит, ставит временные метки на уровне слов для точных субтитров и автоматически помечает звуковые события, например смех зрителей. Стартап предоставляет клиентам возможность напрямую транскрибировать видеоконтент для добавления субтитров или титров в своей студии.

В настоящее время Scribe работает только с предварительно записанными аудиофайлами. Компания заявила, что скоро выпустит версию модели с низкой задержкой в реальном времени. Это означает, что она пока не подходит для расшифровки встреч или голосовых заметок.

ElevenLabs предлагает Scribe по цене $0,40 за час расшифрованного аудио. Несмотря на конкурентоспособность тарифа, некоторые из его конкурентов  [8]предлагают более низкую цену  [9]на аудиозаписи с некоторой дифференциацией функций.

Источник [10]

Автор: mefdayy

Источник [11]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/12612

URLs in this post:

[1] ElevenLabs: https://elevenlabs.io/

[2] интеллекта: http://www.braintools.ru/article/7605

[3] 180 миллионов долларов: https://techcrunch.com/2025/01/30/elevenlabs-raises-180-million-in-series-c-funding-at-3-3-billion-valuation/

[4] Gladia: https://techcrunch.com/2024/10/15/gladia-believes-real-time-processing-is-the-next-frontier-of-audio-transcription-apis/

[5] Speechmatics: https://techcrunch.com/2022/06/28/speechmatics-raises-62m-for-its-inclusive-approach-to-speech-to-text-ai/

[6] AssemblyAI: https://www.assemblyai.com/

[7] когда компания выпускает автономную модель распознавания речи: https://elevenlabs.io/speech-to-text

[8] конкурентов : https://www.speechmatics.com/pricing

[9] цену : https://www.assemblyai.com/pricing

[10] Источник: https://techcrunch.com/2025/02/26/elevenlabs-is-launching-its-own-speech-to-text-model/

[11] Источник: https://habr.com/ru/companies/bothub/news/886176/?utm_source=habrahabr&utm_medium=rss&utm_campaign=886176

www.BrainTools.ru

Rambler's Top100