Как мы разрабатывали интеллектуальное устройство SberBoom Micro. ai.. ai. аудио.. ai. аудио. Блог компании SberDevices.. ai. аудио. Блог компании SberDevices. Гаджеты.. ai. аудио. Блог компании SberDevices. Гаджеты. Звук.. ai. аудио. Блог компании SberDevices. Гаджеты. Звук. Производство и разработка электроники.. ai. аудио. Блог компании SberDevices. Гаджеты. Звук. Производство и разработка электроники. промышленный дизайн.. ai. аудио. Блог компании SberDevices. Гаджеты. Звук. Производство и разработка электроники. промышленный дизайн. умные колонки.. ai. аудио. Блог компании SberDevices. Гаджеты. Звук. Производство и разработка электроники. промышленный дизайн. умные колонки. умные устройства.
Как мы разрабатывали интеллектуальное устройство SberBoom Micro - 1

Салют, Хабр!

Я Артур, CPO умных колонок Sber. Сегодня мы представили новое поколение умных устройств Sber с искусственным интеллектом GigaChat — колонку SberBoom Micro. Это самая маленькая из всех колонок семейства Sber, при этом с новой функцией, которая позволяет сделать умной обычную аудиосистему. Достаточно подключить её к обычной аудиоколонке по bluetooth и управлять воспроизведением на своей акустике голосом.

В статье о разработке SberBoom Micro расскажу:

— при чём тут Стэнли Кубрик и Дени Вильнёв;

— как компоновали устройства на плате, которая должна быть на 20% больше;

— какие метрики звука позволяют вычислить количество ложных срабатываний ассистента. 

Два предложения о продуктовых требованиях. По замыслу SberBoom Micro — это помощник для эволюции обычной аудиоакустики: она позволяет владельцу сделать её умной. Кроме того, это устройство-персональный ассистент — обеспечивает аудиоинтерфейс для общения с GigaChat, прослушивание контента и удобное управление устройствами умного дома. 

Ключевыми требованиями к новому интеллектуальному устройству стали функциональность и компактность. Именно компактность продиктовала подход к схемотехнике и акустике: предварительно намеченные в соответствии с продуктовыми требованиями компоненты требовалось уместить в миниатюрном (для колонки) корпусе. Поэтому первым делом — о дизайне.

Форма будущего

Для колонки мы рассмотрели как минимум пять дизайн-концепций и даже разные форм-факторы. Концепцией, которая понравилась всем, стала «Новая космология». Это колонка в форме, знакомой всем: галечный камень, который умещается в ладонь.

«Я хотел упаковать новую технологию в простую и узнаваемую форму: чем выше технология, тем чище и «тише» должна быть её оболочка. Этот контрастный подход часто используют в кино: суперсовременная или инопланетная технологию в архетипично примитивном формате. Можно вспомнить монолит из фильма «2001 год: космическая одиссея» Стэнли Кубрика или корабли в «Прибытии» Дени Вильнёва.

Отсюда и форма слегка асимметричной «гальки». Такой объект хочется держать в руках, словно тот самый камень с пляжа, который в итоге забираешь с собой на память. То же ощущение свежести и спокойствия хотелось передать и в цвете. Итоговый оттенок — серо-небесный. Он меняется от каменно-серого до бледно-голубого в зависимости от освещения»

.

Кирилл Мусиенко, промышленный дизайнер SberDevices

Слева — кадр из фильма «2001 год: космическая одиссея», справа — «Прибытие»

Слева — кадр из фильма «2001 год: космическая одиссея», справа — «Прибытие»

Чтобы попасть в нужный цвет, мы распечатали на 3D-принтере макет, купили краски в магазине для моделистов и раскрасили макеты, чтобы затем подобрать этот оттенок по вееру… и доработать отдельно — на веере оттенок был слишком грубым. В CMF (Color, Material, Finish — описание внешнего вида продукта для фабрики) был указан целевой цвет плюс некоторые ответвления от него. Финальный цвет выбирали из семи почти одинаковых образцов, оценивая их в естественном и искусственном освещении.

Работа над первым прототипом. На фото 2 из-за разности напряжений после сушки модель разорвало и вывернуло

Работа над первым прототипом. На фото 2 из-за разности напряжений после сушки модель разорвало и вывернуло

Планировалось замаскировать все технологические отверстия с лицевой части корпуса так, чтобы осталась только одна кнопка. Поэтому на устройстве появилась текстура, которая прячет реальные отверстия. Кирилл написал код для генерации нерегулярных точек разного диаметра с помощью модуля параметрического моделирования в CAD; далее на основе нескольких макетов сделали образцы и выбрали лучший. Благодаря крапинкам текстура работает и визуально, и функционально — это не декор поверхности, а маскировка инженерных элементов.

Точки наносятся на поверхность с помощью технологии тампопечати: силиконовая груша берёт краску для печати с трафарета и накладывает на корпус. Они выглядят рандомными, но вместе с тем абсолютно одинаковы на каждом девайсе. Характеристики груши пришлось подбирать так, чтобы не смазывать точки на нижнем закруглении колонки.

Программа для генерации точек и документ для фабрики

Программа для генерации точек и документ для фабрики

Маленькая колонка с большими возможностями

Разработка схемотехники и акустики проходила под негласным лозунгом «впихнуть невпихуемое». Команде hardware нужно было уместить в корпус размером 80×80×25 мм динамик плюс плату со всеми компонентами.

Мы подсчитали минимально необходимую площадь платы (выходило, что она должна быть на 20% меньше стандартной) и подогнали её под форму. В итоге плата решена в форме неправильного круга, словно срезанного с одной стороны. Пришлось искать более компактные компоненты и размещать их плотнее. Вместе с тем нужно было сохранить правильный импенданс на радиочастотном тракте и не позволять ничему влиять на качество распознавания звука.

В процессе мы отказались от дополнительной PCBA для микрофона и LED-индикатора, отказались от второй PCB — взамен оптимизировали дизайн RF-антенны. В верхней части корпуса пришлось сделать выемку под конденсатор усилителя — её будет видно, если разобрать умную колонку. 

В итоге SberBoom Micro оснащена SoC Amlogic A113L, чипом ROM типа DDR3 на 128 Мб и такого же объёма Flash-RAM, Wi-Fi модулем W155S1, который поддерживает стандарты 802.11 b/g/n, а также антенной Flex PCB для WiFi и SMD антенной для BT. Питание — TYPE-C 5В 1A.

Как мы разрабатывали интеллектуальное устройство SberBoom Micro - 5

Аудиосистема колонки функционально устроена предельно просто: динамик мощностью 2 Вт и усилитель. Из-за размера Micro пришлось отказаться от классического акустического чембера: по сути им выступает сам корпус устройства. Мы рассматривали вариант круглой PCBA с отверстием под динамик в середине (кодовое название «бублик»), но отказались от неё, так как пришлось бы серьёзно увеличить плату, а как следствие, и всё устройство, для соответствия требованиям референсного дизайна SoC.

Вместе с тем необходимо было добиться оптимального звука даже на Micro. Поэтому нам требовался небольшой динамик, способный звучать сравнительно громко и с низким количеством искажений. (Спойлер: в среднем маленький не умеет быть громким, а громкость искажает звук).

Динамик для колонки выбирали из трёх вариантов: майларовый, смартфонный и алюминиево-бумажный примерно сходных характеристик. Мы сделали небольшие акустические чембера и прослушивали разные динамики, одновременно сравнивая их костэффективность. Майларовый был самым недорогим, но не мог обеспечить качественное звучание музыки — подходил только для аудиокниг и подкастов. Смартфонный просто странно звучал, при этом удорожал изделие. Оптимальным оказался бумажно-алюминиевый. Он совсем малыш: 36 мм в диаметре и 7 в высоту. 

Чтобы добиться оптимального распространения звука, решено было поэкспериментировать с размещением. Мы протестировали два приоритетных варианта расположения акустики: вверх (апфайринг) и вниз (даунфайринг). Снимали АХЧ — амплитудно-частотную характеристику — с обоих вариантов, проводили прослушивания акустических чемберов в разных условиях и с разным аудиоконтентом.

Апфайринг мог обеспечить лучшую громкость, хотя требовал существенной доработки акустического выхода на верхней крышке. Даунфайринг позволял создать подобие фирменного звука колонок SberBoom 360°, если расположить колонку на твёрдой поверхност — звук, выходящий под углом 45 градусов из акустических щелей, отражается от поверхности и расширяет звуковую сцену. 

Поиск оптимальной формы акустических щелей тоже превратился в квест. Изначально предполагалось, что удастся вывести звук так же, как микрофон и светодиод — через микроотверстия на корпусе колонки — но для электроники этого оказалось мало. Поэтому рассматривали и сравнивали чуть ли не все варианты акустических щелей: круглые, широкие вдоль корпуса, вертикальные, горизонтальные. Дополнительно выбранную форму верифицировала дизайн-команда. Тестирования подтвердили, что оптимальный для Micro вариант — это даунфайринг с акустическими щелями внизу. 

На всякий случай мы сравнили громкость SberBoom Micro с другими моделями линейки SberBoom. Оказалось, что она ненамного уступает, например, SberBoom Mini, несмотря на свой малый размер.  

Для прогноза качества работы ассистента в умной колонке мы использовали три основных параметра: 

  • THD+N (total harmonics distortion + noise) — соотношение мощности нелинейных искажений (гармоник, призвуков с некратной частотой и шумов) к мощности тона. Для измерения колонка воспроизводит свип-тон и параллельно записывает результат воспроизведения на внешний измерительный микрофон и звуковую карту.

  • SNR (signal to noise ratio) — отношение сигнал-шум, в случае умной колонки — отношение мощности голосового запроса к мощности звука самой колонки. Оно оценивалось исходя из разных пользовательских сценариев.

  • ERLE (echo return loss enhancement) — степень подавления звука, издаваемого самой колонкой, то есть отношение мощности сигнала до очистки к мощности сигнала после очистки.

SNR оценивался методом статистического анализа, так как и человеческая речь, и музыка — постоянно меняющиеся параметры. Экспериментально мы определили, что минимальная длительность записи для статистически достоверного анализа составляет 3 минуты. Перед оценкой SNR обработали полосовым фильтром тестовые сигналы и выделили диапазон частот 300-3400 Гц, чтобы отфильтровать помехи и акустические шумы, но выделить диапазон частот человеческого голоса. Вычислялся как мгновенный SNR, так и интегральный. Одновременно с SNR по такой же процедуре и на тех же фрагментах сигнала оценивался ERLE (методикой поделимся позже в другой статье).

Лирическое отступление: в умных колонках вопросы звука имеют не одно, а два значения сразу. Есть качество звучания устройства; существует множество стандартов и рекомендаций, как его оценить и улучшить… но их нет для валидации аудиодорожки с микрофоном внутри корпуса, которую использует голосовой ассистент. Именно поэтому SNR и ERLE были важны как сами по себе, так и для прогноза продуктовой метрики FRR, false rejection rate. Это соотношение запросов, на которые умная колонка не среагировала, к общему количеству запросов. 

Мы разработали экспериментальную методологию прогнозирования FRR исходя из показателей THD+N и SNR. Звук снимается не с внешнего измерительного микрофона (так, как его слышит пользователь), а с микрофонов самого устройства — то, что «слышит» колонка. Наиболее высокую корреляцию с FRR показывают SNR на выходе VQE в Дб (в диапазоне 300-3400 Гц) и средний THD+N в диапазоне 100-4000 кГц.

Для улучшения FRR нужно было снижать значения THD+N , а значит, оптимизировать и дорабатывать механический дизайн. Мы разбирали и изучали аналогичные девайсы, изучая, что за компоненты там применяются и где они расположены. Тестировали разные материалы для изготовления демпфирующих прокладок. В общей сложности было проверено более двадцати хардверных гипотез. В итоге:

  • Добавили четвёртое монтажное отверстие, но разместили его несимметрично.  Прокладки из силикона в монтажных отверстиях позволили дополнительно снизить вибрацию.

  • Добавили демпфирующие материалы точечно там, где наблюдали и предполагали их влияние — на деталь, к которой крепится динамик; в точку крепления микрофона (чтобы снизить потенциальный резонанс с платой); на контекст акустического экрана с телом корпуса по периметру; в нишу отсека разъёма TYPE-C. 

  • На обратной стороне динамика добавили виброизоляционную прокладку.

  • Использовали виброизолирующие резиновые втулки для стяжки винтами.

  • Обеспечили изолирующий звуковой канал для микрофона.

Виброизоляция деталей корпуса

Виброизоляция деталей корпуса

После доработок показатель TND-N SberBoom Micro составил менее 2%. Соответственно оцениваемый показатель FRR попал в целевые значения. Чтобы перестраховаться, на практике проверили, что споттерное слово успешно срабатывает. Для тестирования создали соответствующие условия.

Условие

Показатель

Окружение, приближённое к домашней обстановке по уровню шума

± 45 dB

Размер комнаты

5х5 м

Расстояние от источника голоса (колонка) до SberBoom Micro

± 1 м, источник голоса на высоте ± 1.5 м

Положение умной колонки

горизонтально на столе, высота 1 метр

Громкость воспроизводимого голоса (воспроизведение через колонку)

± 65 dB

Колонка играла треки на стопроцентной громкости, а мы воспроизводили споттерное слово со средней громкостью спокойной речи взрослого человека — примерно 65 Дб.

Помощник, который знает всё 

Одна из ключевых опций SberBoom Micro — возможность коммуницировать с искусственным интеллектом GigaChat в колонке. Вместе с тем GigaChat присутствует на многих поверхностях — есть веб-интерфейс GigaChat, а также GigaChat App и Telegram-бот GigaChat. Поэтому в новой колонке мы решили реализовать принцип омниканальности между поверхностями. Пользователь может голосом дать GigaChat задачу исследовать что-нибудь, а развёрнутый результат получить текстом в веб-интерфейсе GigaChat.

Опция запускается голосовой командой. Например:

— Салют, сделай исследование востребованных профессий будущего!

Чтобы реализовать эту возможность, мы добавили в модель GigaChat на колонке две JSON-функции, такие же, как «болталка» или «погода»: одна запускает исследование, вторая позволяет проверить статус — готово или нет. Две функции позволяют повысить качество вызова и избежать вызовов с неправильными аргументами.

GigaChat вызывает функцию по API. Та делает запрос в бэкенд веб-версии и передаёт ему предмет ресёрча, а также обезличенный идентификатор пользователя — токен из blackbox, по которому можно опознать пользователя. В свою очередь, бэкенд веб-версии посредством blackbox определяет, зарегистрирован ли в ней пользователь. Если да — сообщает предмет исследования. Если нет, опять же сообщает предмет исследования плюс создаёт по идентификатору нового пользователя. Пользователю без регистрации в веб-версии SberBoom Micro озвучит расширенную инструкцию, где и как посмотреть результат. 

Так как технически это очередные функции для GigaChat, добавляли их по стандартной процедуре — JSON с описанием и инструкцией, тестирование финальной инструкции в режиме zero-shot (детали тут). Также модель проходит обстрел запросами для проверки, корректно ли вызывается функция.

Колонка, с которой удобно 

SberBoom Micro можно установить в квартире двумя методами: поставить на стол или прикрепить на стену. В обоих случаях решающую роль играл вес девайса.  

Настенное крепление у SberBoom Micro двуслойное — здесь переиспользован принцип, который применяется в SberBox 2. На дне устройства расположена велкро-липучка, которая крепится к наклейке с адгезивным слоем. Вместе с тем колонка устойчиво располагается и на горизонтальных поверхностях.

Как мы разрабатывали интеллектуальное устройство SberBoom Micro - 7

Изначально в разработке крепления на стену основным фокусом была максимальная надёжность. Но с первым вариантом адгезивного слоя снять умную колонку со стены получилось только вместе со штукатуркой. «Это плохой пользовательский опыт», — догадались мы. И начали подбирать надёжный состав, который одновременно позволит неоднократно снимать и перевешивать колонку без ущерба для стены. Он успешно прошёл тесты. Для перестраховки SberBoom Micro прикрепили к стене на офисном месте нашего hardware TPM Дмитрия Кабачника; несколько месяцев он периодически дёргал за колонку и подвешивал к ней тяжёлые power-адаптеры для тестирования. Импровизированное лонгитюдное исследование крепление тоже выдержало.

Питание колонки реализовано от Type-C 5 Вт, 1А. Она способна работать при подключении к любому Type-C порту — в пауэрбанке, компьютере или ноутбуке, телевизоре, даже прикуривателе. Мы дополнительно убедились, что SberBoom Micro может питаться от пауэрбанка, давая ей экстремальные (и нестандартные) нагрузки по звуку и замеряя максимальное энергопотребление. Оно составило 0,63 Вт — даже меньше, чем заявленные 1,5 Вт. Интересный факт: после UX-исследования мы отказались от адаптера для Type-C в комплекте. Большинство респондентов заявили, что у них дома уже есть минимум один, поэтому адаптер не требуется.

Заключение

Глобально SberBoom Micro — интеллектуальное устройство-проводник: между пользователем и его акустической bluetooth-системой, пользователем и искусственным интеллектом GigaChat, пользователем и умным домом. Создать такое — определённо задача-челлендж. Тем занимательнее было её решать: искать подходы, ошибаться и исправлять ошибки, раскрашивать макеты и бегать по парковке с аттеньюаторами для проверки Wi-Fi-модуля. Разработка каждого устройства — это приключение, а в конце все получают приз — готовое устройство.

В подготовке статьи участвовали: Дмитрий Кабачник, Олег Шилов, Кирилл Мусиенко, Александр Кудинов, Михаил Кузьмин    

Автор: apokrashenko

Источник

Rambler's Top100