Наушники с ИИ выделяют голос собеседника в шумной обстановке

7.18k

Наушники с ИИ выделяют голос собеседника в шумной обстановке

10.12.2025

Ученые из Вашингтонского университета создали прототип умных наушников, которые автоматически выделяют и усиливают голоса собеседников в шумной обстановке. Их разработка решает «проблему коктейльной вечеринки» и делает общение в местах массового скопления людей комфортнее. Результаты исследования были представлены на конференции Empirical Methods in Natural Language Processing (EMNLP) в Сучжоу (Китай) и опубликованы на сервере препринтов arXiv.

Под капотом системы, названной «проактивными слуховыми помощниками», две ИИ-модели. Первая анализирует аудиопоток и определяет ритм диалога по принципу «кто и когда говорил», отслеживая очередность реплик. Вторая модель изолирует голоса, соответствующие этому ритму, и приглушает все остальные звуки. Для идентификации собеседника в переполненном помещении ИИ-наушникам нужно всего 2-4 секунды аудио.

«Существующие подходы к определению того, кого слушает человек, часто предполагают имплантацию электродов в мозг для отслеживания внимания, — отметил старший автор работы, профессор Школы компьютерных наук и инженерии Вашингтонского университета Шьям Голлакота. — Наша идея в том, что во время разговора речь собеседников естественным образом следует ритму очередности. И мы можем обучить ИИ предсказывать и отслеживать эти ритмы, используя только звук».

Тестирование с 11 участниками показало, что очищенный ИИ-фильтрацией звук они оценили более чем в два раза выше по качеству шумоподавления и разборчивости, чем исходный. Система способна работать с группой от одного до четырех собеседников.

По словам аспиранта Школы компьютерных наук и инженерии Вашингтонского университета Гуйлинь Ху, предыдущие разработки команды требовали ручного выбора говорящего или дистанции прослушивания. Новая же технология проактивна — она ненавязчиво и автоматически определяет намерение человека.

Разработчики признают, что ИИ-наушники могут столкнуться с трудностями в разговорах, когда люди перебивают друг друга или говорят длинными монологами. Кроме того, модели протестированы на английском, китайском (мандаринском диалекте) и японском языках, поэтому для других языков могут потребоваться дополнительные настройки.

Прототип собран на базе коммерческих накладных наушников, микрофонов и схем. В планах команды — уменьшение размера системы для ее интеграции в небольшие устройства, например слуховые аппараты или внутриканальные наушники.

У разработки открытый исходный код, доступный на GitHub.

Текст: Наталья Травова

Изображение: Freepik

Подписывайтесь на каналы Let AI be в Telegram и «ВКонтакте» — оставайтесь в курсе главных новостей в сфере искусственного интеллекта!