Модель синтеза речи VALL-E от Microsoft точно имитирует голос человека
Компания Microsoft представила модель искусственного интеллекта для преобразования текста в речь под названием VALL-E. Она способна точно имитировать голос человека по трехсекундному звуковому образцу.
По мнению разработчиков, VALL-E можно использовать в приложениях для перевода текста в речь или редактирования речи (когда голосовая запись может быть изменена из текстовой расшифровки), а также для создания аудиоконтента в сочетании с другими генеративными моделями ИИ, такими как GPT-3.
Microsoft обучила алгоритм синтеза речи VALL-E на звуковой библиотеке, собранной Meta*, под названием LibriLight. Она содержит 60 тысяч часов англоязычной речи от более чем 7 тыс. носителей. Контент в основном взят из общедоступных аудиокниг LibriVox.
Помимо сохранения тембра голоса и эмоционального тона говорящего, VALL-E также может имитировать «акустическое окружение» сэмпла. Например, если аудиофрагмент взят из телефонного звонка, то имитация тоже будет звучать как телефонный звонок.
Microsoft не открыла код VALL-E для экспериментов. В компании осознают, какой вред может нанести эта технология: «Поскольку VALL-E может синтезировать речь, сохраняя идентичность говорящего, это ведет к потенциальным рискам неправильного использования модели, таким как подмена голосовой идентификации или выдача себя за конкретного говорящего».
В Microsoft отметили, что будут работать над ИИ-моделью для обнаружения различий, чтобы снизить такие риски.
Напомним, в Китае 10 января 2023 года вступило в силу постановление, регулирующее применение генеративного искусственного интеллекта.
Источник: Ars Technica
Фото: Unsplash
*Признана в России экстремистской