Создана нейросеть, которая умеет генерировать музыку по текстовому описанию

Американские разработчики создали Riffusion — нейросеть, которая генерирует музыку из введённого текста путём создания визуального представления звука и преобразования его в аудио для воспроизведения. Riffusion создаёт сонограммы, которые хранят аудио в двухмерном изображении. В сонограмме ось X представляет собой время (порядок воспроизведения частот слева направо), а ось Y — частоту звуков. При этом цвет каждого пикселя изображения отражает амплитуду звука в данный момент времени. Ознакомиться с нейросетью можно по ссылке.

Поскольку сонограмма — это тип изображения, нейросеть может обрабатывать её. Разработчики обучили пользовательскую модель нейросети на примерах сонограмм, связанных с описаниями звуков или музыкальных жанров, которые они представляют. С помощью этих знаний Riffusion может генерировать новую музыку на лету, основываясь на тексте, описывающего тип музыки или звука, который вы хотите услышать, например, «джаз», «рок» или даже звук набора текста на клавиатуре. После создания изображения сонограммы Riffusion использует Torchaudio для преобразования сонограммы в звук, воспроизводя его в виде аудио.

Алексей Клёсов

Вам также может понравиться

ИИ от IBM научился более точно выявлять болезнь Альцгеймера, чем классический метод

Искусственный интеллект определил, как может измениться плодородие почв к 2050 году

Одноклассники и Worki создали чат-бота для поиска работы