- BrainTools - https://www.braintools.ru -

В отличие от нынешних голосовых ассистентов, команда AI for Service предлагает более интерактивный подход. Они считают, что ИИ должен сам распознавать ситуации, когда человеку требуется помощь, и предлагать ее без предварительного запроса. Такой подход, который они называют проактивной помощью, был продемонстрирован на примере ИИ-очков с потоковым видео от первого лица.
В быту нам нечасто удается сформулировать запросы в нужный момент: мысли мелькают, руки заняты, ситуация постоянно меняется. Проактивный ИИ должен уметь:
Определить подходящий момент для вмешательства;
Предложить краткий общий совет, если он будет достаточным;
Приоритет отдавать персональному сопровождению, когда речь идет о сформировавшихся привычках и долгосрочных предпочтениях.
Исследователи определяют проактивное поведение [2] ИИ с помощью двух ключевых параметров: момента вмешательства и метода помощи.
Предлагаемая архитектура Alpha‑Service, отсылающая к классической, но актуальной концепции фон Неймана, состоит из пяти блоков, которые охватывают весь путь от получения информации до формирования ответа.
Input: непрерывное восприятие [3] видео от первого лица. Легкая модель ловит триггеры в реальном времени, тяжелая — по запросу — разбирает детали сцены. Это баланс скорости и глубины.
CPU: мозг‑диспетчер на базе дообученной LLM. Он решает, что делать: отвечать сразу, дождаться нужного момента, сходить в память [4] или вызвать инструменты.
Memory: простое, но полезное долговременное хранилище — история, привычки, краткие резюме взаимодействий. Нужное подмешивается в промт для персонализации.
ALU: набор инструментов — от веб‑поиска до специализированных моделей. Подключаются только при нехватке уверенности.
Output: короткий, понятный ответ и при необходимости голос через локальный синтезатор.
Мультиагентная система распределяет роли: восприятие, планирование, вычисления, память, подача — и держит низкую задержку на очках.
1) Подсказки в блэкджеке в реальном времени. Очки ловят моменты, когда на столе меняется сумма очков, и подают короткий совет с учетом вероятностей и карты дилера. Речь не о магии, а о трезвом расчете, который успевает прозвучать до того, как вы протянете руку к стопке.
2) Музейный гид, который понимает, на чем вы задержали взгляд. Система замечает интерес [5] к экспонату, уточняет визуальные признаки, при необходимости делает целевой поиск и выдает емкое объяснение происхождения и смысла артефакта.
3) Совет по посадке и стилю в магазине. Очки видят, что вы вертите в руках темный свитер, и подкидывают короткую шпаргалку: по ткани, размерной сетке и сочетаемости. Без лекций и лишних слов.
Для триггеров и быстрых подсказок используется легкая мультимодальная модель, которая непрерывно читает поток и отмечает “точки внимания”.
Для глубокого разбора — более мощная мультимодальная LLM, включающаяся лишь тогда, когда действительно нужно.
Роль CPU выполняет дообученная LLM: она строит план, решает, когда молчать, а когда вывести голосовую подсказку, и обращается к инструментам.
В качестве инструментов уже подключен веб‑поиск: результаты ужимаются и подшиваются к рассуждению. Память хранит опорные факты и предпочтения, а вывод — короткий и дружелюбный, с локальным озвучиванием.
Главное — не ответы “по запросу”, а своевременность вмешательства. Система учится видеть временные паттерны: когда задержка разрушит опыт [7], а когда наоборот лучше промолчать. Она сочетает обобщенные подсказки для всех и персональные — для вас. И делает это на устройстве, где ресурсы всегда на счету.
Авторы видят потенциал в более глубокой памяти и персонализации, расширении набора инструментов, а главное — в масштабных пользовательских исследованиях. Цель проста: помощник, который с годами все точнее понимает ваш контекст и аккуратно предвосхищает потребности, не отнимая автономию. Сегодня фантастическое будущее из фильмов становится реальностью, благодаря подобным исследованиям.
📜 Полная статья [8]
***
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал [9] [10]— там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.
Автор: andre_dataist
Источник [11]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/20943
URLs in this post:
[1] потребности: http://www.braintools.ru/article/9534
[2] поведение: http://www.braintools.ru/article/9372
[3] восприятие: http://www.braintools.ru/article/7534
[4] память: http://www.braintools.ru/article/4140
[5] интерес: http://www.braintools.ru/article/4220
[6] внимание: http://www.braintools.ru/article/7595
[7] опыт: http://www.braintools.ru/article/6952
[8] 📜 Полная статья: https://arxiv.org/abs/2510.14359
[9] подписывайтесь на мой Telegram-канал: https://t.me/+FQ0P8-aXJK1jZWQy
[10] : https://t.me/+F7PPDKbp7mA2NTgy
[11] Источник: https://habr.com/ru/articles/958646/?utm_source=habrahabr&utm_medium=rss&utm_campaign=958646
Нажмите здесь для печати.