Let AI be

Яркий онлайн-журнал про искусственный интеллект (Artificial Intelligence, AI)

 

Свяжитесь с нами

Пресс-релизы, предложения об инфопартнерстве и сотрудничестве,
в том числе запросы на рекламу, присылайте на почту редакции:

Ждем вас в соцсетях

Робот EMO научился синхронизировать движения губ с речью, наблюдая за людьми

Инженеры из Колумбийского университета (США) представили робота, который способен обучаться реалистичной синхронизации движений губ с речью, наблюдая за людьми на видео, сообщает New Atlas. Разработка поможет преодолеть один из ключевых барьеров в создании правдоподобных андроидов.

Роботизированная голова по имени EMO была сконструирована аспирантом Юханом Ху и профессором Ходом Липсоном c кафедры машиностроения и их коллегами из вуза. Под гибкой силиконовой кожей лица EMO расположены 26 миниатюрных двигателей, активация которых в различных комбинациях позволяет роботу воспроизводить мимику и формировать разные положения губ.

Обучение EMO проходило в два этапа. Сначала робота-гуманоида поместили перед зеркалом, где он в течение нескольких часов генерировал тысячи случайных выражений лица, наблюдая за результатами. Это позволило его системе на основе визуально-двигательной языковой модели (Vision-Language-Action, VLA) запомнить, какие команды моторам приводят к каким видимым изменениям мимики. Затем искусственный интеллект EMO анализировал много часов видеозаписей с YouTube, где люди разговаривают и поют, чтобы установить связь между звуками речи и соответствующими движениями рта. Объединив эти знания, система научилась формировать правдоподобную артикуляцию для слов, произносимых синтетическим голосовым модулем.

На текущем этапе технология не идеальна: робот испытывает трудности с точным воспроизведением движений губ для таких звуков, как «B» и «W». Однако разработчики уверены, что с практикой эти недостатки будут устранены.

«Когда способность к синхронизации губ сочетается с разговорным ИИ, таким как ChatGPT или Gemini, это добавляет совершенно новую глубину связи, которую робот формирует с человеком, — отмечает Юхан Ху. — Чем больше робот наблюдает за беседующими людьми, тем лучше он будет имитировать тонкие мимические жесты, которые вызывают у нас эмоциональный отклик».

Исследование, опубликованное в журнале Science Robotics, демонстрирует потенциал самообучающихся систем для создания более естественного невербального взаимодействия между машинами и людьми. В будущем такая технология может быть использована в роботах-компаньонах, виртуальных ассистентах с физическим воплощением и в индустрии развлечений.

Текст: Майя Цветкова

Изображение: Колумбийский университет

Подписывайтесь на каналы Let AI be в Telegram и «ВКонтакте» — оставайтесь в курсе главных новостей в сфере искусственного интеллекта!

 

 

You don't have permission to register