Meta* возвращается в мир open source с Omnilingual ASR — более мощного конкурента Whisper от OpenAI. ai.. ai. asr.. ai. asr. meta.. ai. asr. meta. Open source.. ai. asr. meta. Open source. whisper.. ai. asr. meta. Open source. whisper. Блог компании Технократия.. ai. asr. meta. Open source. whisper. Блог компании Технократия. ИИ.. ai. asr. meta. Open source. whisper. Блог компании Технократия. ИИ. искусственный интеллект.. ai. asr. meta. Open source. whisper. Блог компании Технократия. ИИ. искусственный интеллект. работа с аудио.. ai. asr. meta. Open source. whisper. Блог компании Технократия. ИИ. искусственный интеллект. работа с аудио. расшифровка аудио.
Meta* возвращается в мир open source с Omnilingual ASR — более мощного конкурента Whisper от OpenAI - 1

Meta представила новую многоязычную систему автоматического распознавания речи (ASR), поддерживающую свыше 1600 языков. Для сравнения — открытая модель Whisper от OpenAI распознает лишь 99.

Более того, архитектура Omnilingual ASR позволяет разработчикам самостоятельно расширять поддержку — фактически до тысяч языков. Благодаря механизму «zero-shot» обучения в контексте (in-context learning) пользователю достаточно предоставить несколько примеров аудио и текста на новом языке во время работы модели, чтобы она смогла распознавать дальнейшие фразы без дополнительного обучения.

Дисклеймер: это вольная адаптция текста издания Venture Bear. Перевод подготовила редакция «Технократии». Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» — мы регулярно рассказываем о новостях про AI, а также делимся полезными мастридами и актуальными событиями.

Если у вас стоит задача интеграции ИИ в бизнес-процессы, то напишите нам.

Таким образом, потенциал системы охватывает более 5400 языков — практически все, для которых существует письменность. Это переход от статичных возможностей модели к гибкой платформе, которую могут адаптировать сами сообщества. 1600 языков — это официально обученный набор, но фактический потенциал модели намного шире: она способна обобщать данные и обучаться «на лету».

И самое важное — Meta открыла Omnilingual ASR под лицензией Apache 2.0, без ограничений и платных корпоративных условий, как это было с предыдущими релизами LLaMA. Исследователи и разработчики теперь могут использовать, адаптировать и внедрять модель бесплатно, в том числе в коммерческих проектах.

Новый комплект моделей, опубликованный 10 ноября на сайте Meta, в GitHub и на платформе Hugging Face, включает:

  • семейство моделей распознавания речи;

  • многоязычную модель представления аудио с 7 миллиардами параметров;

  • корпус записей более чем на 350 малоресурсных языках.

Все ресурсы доступны по открытым лицензиям, и модели работают из коробки в режиме «речь в текст».

Meta заявила в X (бывший Twitter): «Открывая эти модели и датасеты, мы стремимся разрушить языковые барьеры, расширить цифровой доступ и дать сообществам по всему миру новые инструменты».

Система для преобразования речи в текст

В основе Omnilingual ASR — преобразование устной речи в письменный текст. Модель предназначена для голосовых ассистентов, систем транскрибации, субтитров, цифровых архивов и инструментов доступности для языков с ограниченными ресурсами.

В отличие от ранних систем, которым требовались гигантские объемы размеченных данных, Omnilingual ASR содержит вариант с нулевым обучением — zero-shot. Он способен распознавать язык, которого модель никогда не «видела», используя всего несколько примеров аудио и текста. Это резко снижает порог для добавления новых и исчезающих языков, избавляя от необходимости собирать большие корпуса.

Архитектура и семейство моделей

Omnilingual ASR включает несколько линеек, обученных на 4,3 миллионах часов аудио на 1600+ языках:

  • wav2vec 2.0 — самообучающиеся модели представления речи (300 млн–7 млрд параметров);

  • CTC-модели — для эффективной супервизируемой транскрибации;

  • LLM-ASR — объединяют аудиоэнкодер и текстовый декодер на базе Transformer, обеспечивая точность уровня SOTA;

  • LLM-ZeroShot ASR — позволяет адаптироваться к новым языкам на этапе инференса.

Все модели построены по принципу «энкодер–декодер»: исходный аудиосигнал переводится в языконезависимое представление, а затем преобразуется в текст.

Почему масштаб имеет значение

Whisper и аналогичные модели хорошо работают с глобальными языками, но слабо охватывают редкие и региональные. Whisper поддерживает 99 языков, а Meta предлагает:

  • прямую поддержку более 1600 языков;

  • возможность расширения до 5400+ через in-context learning;

  • точность распознавания с ошибкой менее 10% для 78% языков.

Более 500 языков, по данным Meta, ранее не были представлены ни в одной ASR-модели. Это открывает новые возможности для сообществ, чьи языки традиционно остаются за пределами цифрового пространства.

Контекст: стратегия Meta в 2025 году и уроки Llama 4

Релиз Omnilingual ASR стал поворотным моментом в стратегии искусственного интеллекта Meta. После неудачного запуска Llama 4 в апреле 2025 года, получившего смешанные и в целом негативные отзывы, компания столкнулась с падением доверия и замедлением внедрения своих ИИ-продуктов в бизнес-среде.

После этого Марк Цукерберг назначил Александра Вана, сооснователя Scale AI, на должность Chief AI Officer и начал масштабный набор исследователей с рекордными компенсациями.

Omnilingual ASR стал символом «перезапуска» стратегии. Meta вернулась к своей сильной стороне — многоязычному ИИ, выпустив открытую, гибкую платформу с минимальными барьерами для исследователей и локальных сообществ.

Модель не только демонстрирует инженерную компетенцию компании, но и задает новый стандарт прозрачности: открытые лицензии, воспроизводимые протоколы обучения и публичные наборы данных.

Эта стратегия укладывается в обновленную концепцию Meta — «персональный суперинтеллект» и отказ от «метавселенной» в пользу фундаментальных AI-разработок.

Сообщество и сбор данных

Для достижения такого масштаба Meta объединилась с исследователями и локальными организациями в Африке, Азии и других регионах, создав корпус Omnilingual ASR Corpus — 3350 часов речи на 348 малоресурсных языках.

В проекте участвовали:

  • African Next Voices (Maseno University, University of Pretoria, Data Science Nigeria, при поддержке Gates Foundation);

  • Mozilla Common Voice (через Open Multilingual Speech Fund);

  • Lanfrica / NaijaVoices, собравшие данные по 11 африканским языкам.

Речь записывалась в естественных условиях, на живые темы — от обсуждения семьи до дружбы. Расшифровка велась с учетом локальных алфавитов и орфографических стандартов.

Производительность и оборудование

Крупнейшая модель omniASR_LLM_7B требует около 17 ГБ видеопамяти и подходит для мощных GPU.
Младшие модели (300M–1B) работают на менее производительных устройствах в режиме реального времени.

Тесты показали:

  • точность выше 90% для 95% высоко- и среднересурсных языков;

  • точность выше 90% для 36% малоресурсных ��зыков;

  • устойчивость к шуму и новым областям применения.

Zero-shot версия omniASR_LLM_7B_ZS позволяет транскрибировать новые языки, если предоставить несколько аудио-примеров с текстом.

Доступ и инструменты

Все модели и наборы данных распространяются под открытыми лицензиями:

  • Apache 2.0 — для моделей и кода;

  • CC-BY 4.0 — для корпуса на Hugging Face.

Установка через PyPI:

pip install omnilingual-asr

Meta также предоставляет интеграцию с HuggingFace, готовые пайплайны для инференса и управление языковыми кодами.

Пример вывода списка языков:

from omnilingual_asr.models.wav2vec2_llama.lang_ids import supported_langs

print(len(supported_langs))
print(supported_langs)

Значение для бизнеса

Для компаний, работающих на многоязычных рынках, Omnilingual ASR снимает барьер внедрения систем распознавания речи.

Теперь вместо платных API с ограниченным числом языков можно использовать открытый стек, поддерживающий более 1600 языков из коробки и расширяемый до тысяч других.

Это особенно важно для секторов вроде клиентской поддержки, транскрибации, образования, гражданских сервисов и инклюзии, где локальные языки имеют стратегическое значение.

Omnilingual ASR знаменует сдвиг в парадигме ASR — от закрытых облачных решений к открытому сообществу, где каждая культура может добавить свой голос в цифровое пространство.

*Meta признана в России экстремистской организацией и запрещена

Автор: madballer34

Источник

Rambler's Top100