
Компания Google анонсировала новую голосовую модель Gemini 3.1 Flash Live, сделав акцент на скорости отклика и качестве живого общения. По сравнению с предыдущей версией модель быстрее реагирует на запросы и точнее распознает акустические нюансы, включая темп речи, интонацию и высоту голоса. Отдельное внимание уделено фильтрации фонового шума, что улучшает работу в реальных условиях.

Модель уже доступна через Gemini Live API в Google AI Studio и поддерживает мультимодальное взаимодействие более чем на 90 языках в режиме реального времени. Важным улучшением стала более строгая работа с инструкциями: модель лучше следует заданным правилам и не выходит за рамки даже при сложных или неожиданных поворотах диалога.
Также Gemini 3.1 Flash Live эффективнее взаимодействует с внешними инструментами, что делает её удобной для интеграции в приложения и сервисы. Это особенно важно для сценариев, где голосовой ассистент должен не только отвечать, но и выполнять действия.

Новая модель станет основой для пользовательских сервисов Gemini Live и Search Live. Google обещает более плавное общение с ИИ: уменьшится количество пауз, а контекст диалога будет удерживаться примерно в два раза дольше. Параллельно компания расширяет доступность Search Live — сервис станет доступен более чем в 200 странах.
Запуск Gemini 3.1 Flash Live показывает, что конкуренция в голосовых интерфейсах усиливается, а компании стремятся сделать взаимодействие с ИИ максимально естественным и приближенным к живому разговору.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Автор: cognitronn


