- BrainTools - https://www.braintools.ru -

Яндекс победил шум

Бывало с вами так – лежишь в ванной, хочешь посмотреть видео с конями, кричишь “Алиса!”, а колонка тебя не слышит из-за льющейся воды, работающего телевизора, пылесоса, чайника, соседа с перфоратором, блядской стройки за окном?

Один из способов – жениться на женщине по имени Алиса, но тогда вам придется растить детей, убирать срач в доме и ездить в глупые отели в эмирате Дубай. Должно существовать более эффективное решение, не требующее обратной дискриминации мужчин.

Инженеры (ни в коем случае не рисёчеры) из Яндекса посмотели на эту проблему, и, похоже, нашли элегантное решение. Почитать подробней пейпер можно по ссылке на Архиве [1], а ниже – моя художественная интепретация.

Уже есть куча методов адаптивного шумоподавления.

Бимформинг (Beamforming, BF) пытается “слушать” в определённом направлении, это такое бионическое ухо. Но если ты орёшь не с той стороны – оно тебя не услышит.

Адаптивное шумоподавление (или в народе, ANC) пытается вычесть фоновый шум из сигнала. Проблема в том, что если ты что-то говорил прямо перед ключевым словом, система может принять твой голос за шум и “вычесть” и его. Проблема знакома всем, кто пытается в наушниках-затычках Sony гулять по улице и общаться на совещаниях по работе.

Дата сатанизм с ансамблями моделей позволяет запустить по отдельной нейронке на каждый аудиоканал и потом объединить результаты. Вычислительно дорого, для слабого процессора в колонке – верная смерть от перегрева.

Яндексоиды решили сделать комибнацию из всех этих штук. Вместо того чтобы выбирать один-единственный “чистый” канал, они подают на вход сразу несколько. Например, сырой звук со всенаправленного микрофона, и вместе с ним- звук, уже почищенный через ANC.

Перед основной моделью распознавания они поставили небольшую и очень лёгкую нейронку, реализующую механизм внимания [2]. В этом и есть суть научной работы.

Эта маленькая внимательная нейронка в реальном времени анализирует все каналы и решает, какой из них сейчас самый полезный.

В комнате тихо? Она берёт чистый, неискажённый сигнал с основного микрофона.

Включился пылесос? Переключаемся на тяжелый ANC шумодав.

Ситуация сложная? Создаем взвешенную комбинацию из нескольких каналов, чтобы вытащить максимум полезной информации.

Этот подход показал самый низкий коэффициент ложных отказов (FRR) – то есть, колонка гораздо реже вас игнорирует. Он обошёл и бимформинг, и ансамбль, и даже простое удвоение размера основной модели.

По чисто статистическим причинам. Когда ты выкусываешь те куски статистики, которые тебе больше нравятся – результат гарантированный. Кажется, это бездонная бочка для того, чтобы писать всё новые и новые научные работы. Конкатенируешь еще две какие-нибудь частично эффективные статистики с понятным разбиением – и вот тебе великое новое открытие.

Надо только запретить оформлять патенты на элементарные механизмы внимания. Иначе так можно доиграться до того, что любая попытка применить внимание хоть где-то будет кем-то уже запатентована.

В данном конкретном случае, самая изюминка в том, что механизм внимания реализует крошечная нейронка, которая почти не создаёт оверхеда на слабые китайские процессоры, закупаемые по три копеечки чемодан.

Ну и под конец, немного технических подробностей.

Акустическая лаборатория, использованная для записи набора данных, представляет собой звукоизолированную комнату размером 4.5м на 5.5м, спроектированную для получения ровной импульсной характеристики. Тестируемое устройство размещается в центре комнаты на плоской платформе на высоте 90 см от уровня пола. Несколько источников звука расположены по кругу радиусом 2 м вокруг устройства на разной высоте (70-120 см от земли) и под разными углами.

Каждая запись содержит один источник звука, воспроизводящий шум, который был нормализован до громкости 60 дБ SPL(A) на внешнем микрофоне в центре комнаты, и один источник звука, одновременно воспроизводящий звук ключевого слова с громкостью, равномерно распределённой в диапазоне дБ SPL(A).

Каждая запись содержит только один из предварительно записанных звуков ключевого слова и использует только один из предварительно записанных типов шума: кухня, улица, пылесос, белый, розовый или ТВ. Звуки ключевых слов используют мужские, женские и детские голоса в равных пропорциях. Полученный набор данных содержит 900 записей с SNR в диапазоне [-25, -20, -15, -10, -5, 0, 5] дБ SPL(A).

Иначе говоря, лаборатория действиетльно похожа на то, что мы испытываем при просмотре порно с конями в ванной.

Ну чё, инженеры Яндекса почёт и уважуха. Шумовое загрязнение – это чуть ли не самый главный бич жизни в городе. Иронично, чо больше всего от этой проблемы страдают даже не люди, а ещё не появившийся искусственный интеллект [3].

Больше про нейронки: https://t.me/tg_1red2black [4]

Автор: olegchir

Источник [5]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/17838

URLs in this post:

[1] по ссылке на Архиве: https://arxiv.org/abs/2507.15558

[2] внимания: http://www.braintools.ru/article/7595

[3] интеллект: http://www.braintools.ru/article/7605

[4] https://t.me/tg_1red2black: https://t.me/tg_1red2black

[5] Источник: https://habr.com/ru/companies/bar/news/932750/?utm_source=habrahabr&utm_medium=rss&utm_campaign=932750

www.BrainTools.ru

Rambler's Top100