Stable Diffusion nos maravilló con sus imágenes. Ahora resulta que también es capaz de generar música


DALL·E 2, Midjourney y sobre todo Stable Diffusion se han convertido en un verdadero fenómeno que ha cudido el mundo de arte y el diseño y ha permitido a cualquiera generar imágenes surpandentes gracias a la inteligencia artificial. Las aplicaciones parácián fantásticas en esa disciplina artística, pero unos desarrolladores nos han dado una sorpresa y han ido un poco más allá.

Fusión de arrecifes. Así se llama el modelo de inteligencia artificial que es una pequeña variación de Stable Diffusion y que genera música. Riffusion ha sido creado «como un hobby) por dos desarrolladores que usan su capacidad para generar imágenes muy especiales.

hola, espectrograma. Stable Diffusion no solo puede generar imágenes al estilo de cualquier artista: si uno se lo manda, puede generar espectrogramas curiosos. Estas representaciones singulares del espectro de una señal tienen la particularidad de que se pueden convertir en clips de audio.

Del texto al sonido. Los ‘prompts’ o descripciones de imagen que le damos a Stable Diffusion acaban por tanto convertir en música, y como explican los desarrolladores, el procesado de audio se realiza de forma transparente con un modelo basado en Torchaudio que además puede crear «infinitas variaciones» al ir haciendo que la «semilla» —el prompt original— cambie limentere.

Pequeños clips que se hacen grandes. Los espectrogramas generan clips de audio de solo cinco segundos, pero los desarrolladores querían «ritmos infinitos generados por IA».

Para ello lo que hacian era, a partir de un espectrograma inicial, ir variando esa semilla para que la música flowyera de forma continua. También aplicaron una serie de técnicas para que los espectrogramas fueran demasiado nítidos y las transiciones fueran suaves.

Prueba en la web o instalalo. Los desarrolladores tienen un singular generador de melodías en la web del proyecto, pero el código está disponible en GitHub y solo necesitas un ordenador con una GPU decente para generar este tipo de melodías en apenas unos segundos.

No hay bandas sonoras compuestas, pero… La música creada probablemente no ganará premios de la crítica, pero una vez más puede ser utilizada como inspiración o «borrador» para el compositor humano que puede crear melodías a partir de sus letras. Eso sí: Esto representa una amenaza potencial para la industria musical.



Fuente