Riffusion: новая нейросеть, создающая музыку из текста с помощью визуальных сонограмм
Созданная в качестве хобби Сетом Форсгреном и Хайком Мартиросом, Riffusion работает путем создания сонограмм, которые хранят аудио в двухмерном изображении. В сонограмме ось X представляет собой время (порядок воспроизведения частот слева направо), а ось Y - частоту звуков. При этом цвет каждого пикселя изображения отражает амплитуду звука в данный момент времени.
Поскольку сонограмма - это тип изображения, Stable Diffusion может обрабатывать ее. Форсгрен и Мартирос обучили пользовательскую модель Stable Diffusion на примерах сонограмм, связанных с описаниями звуков или музыкальных жанров, которые они представляют. С помощью этих знаний Riffusion может генерировать новую музыку на лету, основываясь на тексте, описывающего тип музыки или звука, который вы хотите услышать, например, "джаз", "рок" или даже звук набора текста на клавиатуре.
После создания изображения сонограммы Riffusion использует Torchaudio для преобразования сонограммы в звук, воспроизводя его в виде аудио.