
Если вы когда-нибудь сидели в баре и пытались вычленить из общего гула голос конкретного человека, вы знаете, что такое эффект коктейльной вечеринки. Для людей с нарушениями слуха это ежедневный барьер, ведь слуховые аппараты усиливают звук, но не определяют, кого именно нужно слышать.
Раньше решения этой проблемы не было, но в мае 2026 года в Nature Neuroscience вышла работа, в которой специалисты доказали, что слуховой аппарат может в реальном времени усиливать голос того, на кого падает внимание. О том, как ученые пришли к этому, при чем тут хорьки и что это может дать тем, у кого отличный слух, — под катом.
Хорьки, эпилепсия и 93% точности
В начале карьеры Нима Месгарани, ныне профессор Колумбийского университета, для понимания нейромеханизмов изучал слух у хорьков. Их слуховая система похожа на человеческую, но, к сожалению, они не описывали свои ощущения. По этой причине Месгарани перешел к изучению слуха людей — пациентов с эпилепсией, которым для мониторинга припадков на кору головного мозга имплантировали электроды.
Этот метод называется электрокортикографией (ECoG) — записью электрической активности прямо с поверхности мозга. Электроды устанавливаются инвазивно, требуют операции, но дают сигнал с точностью до миллиметров. Зачем вам это знать, поймете дальше.
Подробно останавливаться на ранних работах Месгарани не будем, однако именно они заложили основу для последующих исследований слухового внимания. В 2012 году он вместе с нейрохирургом Эдвардом Чангом опубликовал в Nature результаты нового исследования. В нем доказывалось, что люди обладают удивительной способностью слушать голос одного говорящего, даже если в помещении шумно. Эта способность называется эффектом коктейльной вечеринки.
Для того чтобы выяснить это, ученые смешали два голоса в один поток и попросили пациентов слушать только одного из говорящих. Затем они попытались восстановить спектрограмму речи прямо из нейронных сигналов, и восстановленная картина совпала именно с тем говорящим, на котором было сфокусировано внимание.

Так появился термин Auditory Attention Decoding (AAD) — декодирование слухового внимания. С тех пор направление продолжало развиваться, и появились линейные декодеры, нейросети и end-to-end-архитектуры. Это и привело команду к успеху, но об этом дальше, сначала рассмотрим, как именно работает AAD.
Как работает декодирование слухового внимания
Когда мы сосредоточены на речи конкретного человека, мы подсознательно отслеживаем колебания громкости, которая меняется от говорящего к говорящему. Этот ритм проявляется в активности мозга слушателя, и именно его ловит AAD.
Самый распространенный подход AAD — стимул-реконструкция. Алгоритм берет многоканальную запись активности мозга и аудиоогибающую речи, которую слышал человек. Для каждого канала записи активности мозга и для каждого момента времени он подбирает весовые коэффициенты, которые показывают, как сильно данный канал влияет на итоговую огибающую.
Потом, когда поступает новая запись активности мозга, он перемножает сигналы на эти веса и складывает их — получается восстановленная огибающая. Чтобы в обучающие данные не попадал шум, используют регуляризацию. Она достигается за счет добавления дополнительных ограничений или штрафов на величину и сложность модели.
Однако связь между мозгом и звуком не мгновенная. Нейросигналы относительно акустического стимула запаздывают на 100–250 миллисекунд — это время, за которое сигнал проходит от уха до коры мозга. Поэтому алгоритм учится не на текущем моменте, а на определенном окне активности мозга и уже после пытается предсказать огибающую в определенный момент времени. Это окно называется лагом, и его подбор — отдельная инженерная задача.
После восстановления алгоритм сравнивает полученную огибающую с реальными огибающими всех источников, например, двух говорящих. Та, с которой корреляция выше, и есть «выбранная», но мозг сложнее, чем кажется, и эта связь далеко не всегда линейна.
По этой причине в 2019 году ученые разработали AADNet. Это нейросеть, которая берет часть записи активности мозга и куски аудио всех конкурирующих источников, пропускает их через параллельные фильтры, ищущие паттерны разного масштаба, и на выходе говорит, на каком источнике внимание. Благодаря этому точность AAD подскочила с 66% (линейный метод, мокрые электроды) до 81% на тех же обучающих данных.

Зрачки, предпочтения и фантастика
В мае 2026 года команда Месгарани опубликовала результаты нового исследования. В нем четверо испытуемых с нормальным слухом, которым имплантировали электроды для мониторинга эпилепсии, слушали двух конкурирующих дикторов. AADNet отслеживала внимание и через несколько секунд регулировала громкость того, на котором было сосредоточено внимание.
Чтобы смоделировать реальные условия прослушивания, ученые создали сцены с несколькими говорящими разного пола и возраста, в которых одновременно велись два диалога. Каждый из них был реалистичным разговором между двумя участниками, которые обсуждали такие темы, как еда, путешествия и физические упражнения.
Для обучения и тестирования системы использовалась двухфазная схема:
-
На этапе офлайн участникам было дано указание слушать говорящего, игнорируя другого, поскольку их нейронные реакции регистрировались. Используя эти данные, специалисты обучили и валидировали модель AAD для конкретного участника.
-
На следующем этапе, в режиме онлайн, модель декодировала внимание в режиме реального времени. Чтобы проверить способность к обобщению, ученые другие записи с множественными участниками.
В зависимости от эксперимента испытания делились на сегменты, чтобы можно было сравнить исходные условия и условия с усилением внимания, периоды переключения внимания и естественные смены фокуса.

В ходе многочисленных экспериментов система улучшала разборчивость речи, снижала нагрузку на слуховой аппарат и неизменно получала высокие оценки. По мнению всех четырех испытуемых, у них улучшилось понимание речи спикера. У двоих это предположение было доказано с помощью пупиллометрии — метода изучения зрачков. Ученые оттолкнулись от того, что зрачок человека расширяется, когда мозг «напрягается» под контролем автономной нервной системы. Однако когда AAD работал, зрачки сужались.
Это дало еще один вывод — снизилась нагрузка на мозг, а значит, снизилась и усталость испытуемых. Интересно, что все респонденты хотели, чтобы AAD был включен не менее 75% времени.
Затем ученые дали прослушать записи испытуемых еще 40 участникам, уже с нарушениями слуха. Это были те же записи, но с громкостью, скорректированной на основе электроэнцефалографии основных испытуемых, и без нее — они тоже отметили, что с AAD понимание речи упростилось.
Система даже справлялась с произвольным переключением внимания, когда испытуемые сами решали, на кого смотреть. Обработка данных о работе мозга и аудиоданных в режиме реального времени происходила менее чем за полсекунды. Это доказало, что декодер улавливал внутреннее намерение, а не внешний триггер.
В итоге система AAD реально улучшает восприятие речи, снижает когнитивную нагрузку и нравится пользователям. В будущем это может улучшить фокусировку, обучаемость и помочь людям с нарушениями слуха достичь эффекта коктейльной вечеринки.
Но это сложнее, чем кажется…
Результаты исследования говорящие, но все они лабораторные. В реальности есть несколько препятствий:
-
В исследовании использовались электроды в мозге, но для массового применения нужны неинвазивные методы — обычная электроэнцефалография с электродами на голове или ear-EEG, когда электроды встроены прямо в слуховой аппарат.
-
«Коктейльная вечеринка» — это не только про внимание. Современные слуховые аппараты используют направленные микрофоны, которые усиливают звук спереди и подавляют сзади. В реальности говорящие не стоят неподвижно, и микрофоны не знают, кого из двух людей перед вами вы хотите слышать. В идеальной схеме направленные микрофоны должны сочетаться с AAD для выбора цели, но это требует разработки абсолютно новой архитектуры.
-
Обработка многоканальной записи активности мозга, работа нейросети и управление аудиопотоком должны уместиться в форм-фактор слухового аппарата, который уже забит электроникой. Для этого нужно продумать, как и за счет чего он будет работать с минимальными задержками и без перегревания.
На основе этого: если завтра кто-то предложит вам неинвазивный слуховой аппарат с ИИ, который читает мысли, то это будет лишь маркетинговая пустышка. Но это не значит, что такое устройство не появится через несколько лет, ведь успехи в исследованиях уже есть.
Автор: BiktorSergeev


