OpenAI готовит к релизу двунаправленную аудиомодель

Компания OpenAI ведет разработку инновационной двунаправленной (BiDi) аудиомодели, которая сделает диалог с искусственным интеллектом ^[1] максимально похожим на человеческий. В отличие от текущих систем, новая технология позволяет ИИ обрабатывать речь непрерывно и мгновенно реагировать ^[2] на изменения в ходе беседы.

Технология BiDi: конец эпохи пошаговых диалогов

Суть новой двунаправленной (BiDi) обработки звука заключается в непрерывном анализе входящего аудиопотока. В отличие от существующих пошаговых систем, где искусственный интеллект ожидает окончания фразы пользователя, BiDi-модель адаптируется к изменениям в режиме реального времени. Подобная архитектура позволяет алгоритму мгновенно корректировать ответ, если собеседник перебивает его или меняет тему разговора. Исследователи OpenAI отмечают, что текущие аудиомодели уступают текстовым решениям в точности и скорости, из-за чего большинство пользователей ChatGPT предпочитает текстовый интерфейс голосовому.

Проблемы разработки и новые сроки запуска

В ходе тестирования прототипов инженеры столкнулись с техническими сбоями: модель начинает работать некорректно спустя несколько минут диалога. По этой причине запуск технологии перенесли с первого квартала 2026 года на второй квартал или более поздний срок. Данная задержка продолжает историю сложностей OpenAI с аудиопродуктами. Ранее внедрение режима Advanced Voice Mode для GPT-4o откладывалось для доработки инфраструктуры и систем безопасности. В ходе ранних тестов специалисты фиксировали ошибки ^[3], включая имитацию голоса пользователя и неожиданные выкрики системы. В настоящее время разработчики сосредоточены на способности модели обнаруживать и отклонять нежелательный контент.

Аппаратное будущее и экосистема устройств OpenAI

Разработка новой модели является частью стратегии OpenAI по выходу на рынок потребительской электроники. Компания планирует представить персональное аудиоустройство в течение года, а в дальнейшем расширить портфель за счет умных колонок и очков. Для интеграции в гаджеты и автомобили ведется создание облегченных моделей, способных обрабатывать аудио локально. Это позволит снизить затраты по сравнению с облачными вычислениями, следуя примеру Google, использующей модель Gemini Nano в смартфонах Pixel. Для ускорения работ руководство OpenAI объединило команды инженеров, исследователей и продуктологов в единую группу, сфокусированную на аудиорешениях.

Делегируйте часть рутинных задач вместе с BotHub ^[4]! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке ^[5] вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник ^[6]

Автор: mefdayy

Источник ^[7]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/26709

URLs in this post:

[1] интеллектом: http://www.braintools.ru/article/7605

[2] реагировать: http://www.braintools.ru/article/1549

[3] ошибки: http://www.braintools.ru/article/4192

[4] BotHub: https://bothub.chat/?utm%5C_source=contentmarketing&utm%5C_medium=habr&utm%5C_campaign=news&utm%5C_content%20=OPENAI_IS_PREPARING_TO_RELEASE_A_BIDIRECTIONAL_AUDIO_MODEL

[5] По ссылке: https://bothub.chat/?invitedBy=iTNi-351UcHgc1BxGFWim

[6] Источник: https://www.theinformation.com/newsletters/ai-agenda/openai-develops-bidirectional-audio-model-boost-voice-assistants

[7] Источник: https://habr.com/ru/companies/bothub/news/1007404/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1007404

Нажмите здесь для печати.