
Робот EMO научился синхронизировать движения губ с речью, наблюдая за людьми
Инженеры из Колумбийского университета (США) представили робота, который способен обучаться реалистичной синхронизации движений губ с речью, наблюдая за людьми на видео, сообщает New Atlas. Разработка поможет преодолеть один из ключевых барьеров в создании правдоподобных андроидов.
Роботизированная голова по имени EMO была сконструирована аспирантом Юханом Ху и профессором Ходом Липсоном c кафедры машиностроения и их коллегами из вуза. Под гибкой силиконовой кожей лица EMO расположены 26 миниатюрных двигателей, активация которых в различных комбинациях позволяет роботу воспроизводить мимику и формировать разные положения губ.
Обучение EMO проходило в два этапа. Сначала робота-гуманоида поместили перед зеркалом, где он в течение нескольких часов генерировал тысячи случайных выражений лица, наблюдая за результатами. Это позволило его системе на основе визуально-двигательной языковой модели (Vision-Language-Action, VLA) запомнить, какие команды моторам приводят к каким видимым изменениям мимики. Затем искусственный интеллект EMO анализировал много часов видеозаписей с YouTube, где люди разговаривают и поют, чтобы установить связь между звуками речи и соответствующими движениями рта. Объединив эти знания, система научилась формировать правдоподобную артикуляцию для слов, произносимых синтетическим голосовым модулем.
На текущем этапе технология не идеальна: робот испытывает трудности с точным воспроизведением движений губ для таких звуков, как «B» и «W». Однако разработчики уверены, что с практикой эти недостатки будут устранены.
«Когда способность к синхронизации губ сочетается с разговорным ИИ, таким как ChatGPT или Gemini, это добавляет совершенно новую глубину связи, которую робот формирует с человеком, — отмечает Юхан Ху. — Чем больше робот наблюдает за беседующими людьми, тем лучше он будет имитировать тонкие мимические жесты, которые вызывают у нас эмоциональный отклик».
Исследование, опубликованное в журнале Science Robotics, демонстрирует потенциал самообучающихся систем для создания более естественного невербального взаимодействия между машинами и людьми. В будущем такая технология может быть использована в роботах-компаньонах, виртуальных ассистентах с физическим воплощением и в индустрии развлечений.
Текст: Майя Цветкова
Изображение: Колумбийский университет
Подписывайтесь на каналы Let AI be в Telegram и «ВКонтакте» — оставайтесь в курсе главных новостей в сфере искусственного интеллекта!