Модель синтеза речи VALL-E от Microsoft точно имитирует голос человека

7.24k

Модель синтеза речи VALL-E от Microsoft точно имитирует голос человека

11.01.2023

Компания Microsoft представила модель искусственного интеллекта для преобразования текста в речь под названием VALL-E. Она способна точно имитировать голос человека по трехсекундному звуковому образцу.

По мнению разработчиков, VALL-E можно использовать в приложениях для перевода текста в речь или редактирования речи (когда голосовая запись может быть изменена из текстовой расшифровки), а также для создания аудиоконтента в сочетании с другими генеративными моделями ИИ, такими как GPT-3.

Microsoft обучила алгоритм синтеза речи VALL-E на звуковой библиотеке, собранной Meta*, под названием LibriLight. Она содержит 60 тысяч часов англоязычной речи от более чем 7 тыс. носителей. Контент в основном взят из общедоступных аудиокниг LibriVox.

Помимо сохранения тембра голоса и эмоционального тона говорящего, VALL-E также может имитировать «акустическое окружение» сэмпла. Например, если аудиофрагмент взят из телефонного звонка, то имитация тоже будет звучать как телефонный звонок.

Microsoft не открыла код VALL-E для экспериментов. В компании осознают, какой вред может нанести эта технология: «Поскольку VALL-E может синтезировать речь, сохраняя идентичность говорящего, это ведет к потенциальным рискам неправильного использования модели, таким как подмена голосовой идентификации или выдача себя за конкретного говорящего».

В Microsoft отметили, что будут работать над ИИ-моделью для обнаружения различий, чтобы снизить такие риски.

Напомним, в Китае 10 января 2023 года вступило в силу постановление, регулирующее применение генеративного искусственного интеллекта.

Источник: Ars Technica

Фото: Unsplash

*Признана в России экстремистской