OpenAI готовит к релизу двунаправленную аудиомодель. ai.. ai. BiDi.. ai. BiDi. openai.. ai. BiDi. openai. аудиомодели.. ai. BiDi. openai. аудиомодели. Блог компании BotHub.. ai. BiDi. openai. аудиомодели. Блог компании BotHub. ИИ.. ai. BiDi. openai. аудиомодели. Блог компании BotHub. ИИ. ии диалог.. ai. BiDi. openai. аудиомодели. Блог компании BotHub. ИИ. ии диалог. ии и машинное обучение.. ai. BiDi. openai. аудиомодели. Блог компании BotHub. ИИ. ии диалог. ии и машинное обучение. искусственный интеллект.. ai. BiDi. openai. аудиомодели. Блог компании BotHub. ИИ. ии диалог. ии и машинное обучение. искусственный интеллект. Машинное обучение.

Компания OpenAI ведет разработку инновационной двунаправленной (BiDi) аудиомодели, которая сделает диалог с искусственным интеллектом максимально похожим на человеческий. В отличие от текущих систем, новая технология позволяет ИИ обрабатывать речь непрерывно и мгновенно реагировать на изменения в ходе беседы.

OpenAI готовит к релизу двунаправленную аудиомодель - 1

Технология BiDi: конец эпохи пошаговых диалогов

Суть новой двунаправленной (BiDi) обработки звука заключается в непрерывном анализе входящего аудиопотока. В отличие от существующих пошаговых систем, где искусственный интеллект ожидает окончания фразы пользователя, BiDi-модель адаптируется к изменениям в режиме реального времени. Подобная архитектура позволяет алгоритму мгновенно корректировать ответ, если собеседник перебивает его или меняет тему разговора. Исследователи OpenAI отмечают, что текущие аудиомодели уступают текстовым решениям в точности и скорости, из-за чего большинство пользователей ChatGPT предпочитает текстовый интерфейс голосовому.

Проблемы разработки и новые сроки запуска

В ходе тестирования прототипов инженеры столкнулись с техническими сбоями: модель начинает работать некорректно спустя несколько минут диалога. По этой причине запуск технологии перенесли с первого квартала 2026 года на второй квартал или более поздний срок. Данная задержка продолжает историю сложностей OpenAI с аудиопродуктами. Ранее внедрение режима Advanced Voice Mode для GPT-4o откладывалось для доработки инфраструктуры и систем безопасности. В ходе ранних тестов специалисты фиксировали ошибки, включая имитацию голоса пользователя и неожиданные выкрики системы. В настоящее время разработчики сосредоточены на способности модели обнаруживать и отклонять нежелательный контент.

Аппаратное будущее и экосистема устройств OpenAI

Разработка новой модели является частью стратегии OpenAI по выходу на рынок потребительской электроники. Компания планирует представить персональное аудиоустройство в течение года, а в дальнейшем расширить портфель за счет умных колонок и очков. Для интеграции в гаджеты и автомобили ведется создание облегченных моделей, способных обрабатывать аудио локально. Это позволит снизить затраты по сравнению с облачными вычислениями, следуя примеру Google, использующей модель Gemini Nano в смартфонах Pixel. Для ускорения работ руководство OpenAI объединило команды инженеров, исследователей и продуктологов в единую группу, сфокусированную на аудиорешениях.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

Автор: mefdayy

Источник

Rambler's Top100