08.12.2024
Подписывайтесь на Telegram-канал по ссылке

Создана нейросеть, которая умеет генерировать музыку по текстовому описанию

Riffusion нейросеть

Американские разработчики создали Riffusion — нейросеть, которая генерирует музыку из введённого текста путём создания визуального представления звука и преобразования его в аудио для воспроизведения. Riffusion создаёт сонограммы, которые хранят аудио в двухмерном изображении. В сонограмме ось X представляет собой время (порядок воспроизведения частот слева направо), а ось Y — частоту звуков. При этом цвет каждого пикселя изображения отражает амплитуду звука в данный момент времени. Ознакомиться с нейросетью можно по ссылке.

Поскольку сонограмма — это тип изображения, нейросеть может обрабатывать её. Разработчики обучили пользовательскую модель нейросети на примерах сонограмм, связанных с описаниями звуков или музыкальных жанров, которые они представляют. С помощью этих знаний Riffusion может генерировать новую музыку на лету, основываясь на тексте, описывающего тип музыки или звука, который вы хотите услышать, например, «джаз», «рок» или даже звук набора текста на клавиатуре. После создания изображения сонограммы Riffusion использует Torchaudio для преобразования сонограммы в звук, воспроизводя его в виде аудио.