27.04.2024
Подписывайтесь на Telegram-канал по ссылке

Искусственный интеллект научился имитировать голос любого человека

VALL-E Neural Codec Language Models

Компания Microsoft разработала инструмент для имитации любого человеческого голоса, которому достаточно образца длиной три секунды. Модель разработанного искусственного интеллекта получила название VALL-E. Как утверждают разработчики, модель способна генерировать аудиозапись с разговором человека на заданную тему с высокой точностью — сохраняя даже его эмоциональный тон.

Технология VALL-E представляет собой нейронную языковую модель, в основе которой лежит EnCodec. Алгоритм разделяет при помощи неё голос человека на отдельные компоненты — лексемы. Затем нейросеть сопоставляет их с соответствующими голосами в своих обучающих данных для генерации новых фраз.

Однако несмотря на то, что Microsoft представила эту языковую модель на GitHub, она не опубликовала код VALL-E в открытом доступе. Корпорация уверена, что риск некорректного использования модели довольно высок — к примеру, с её помощью можно подменять идентификацию голоса или даже выдавать себя за конкретного актёра.