Llega Stable Diffusion 2.0 y sus nuevas opciones para generar imágenes con IA nos abren la mente más que nunca


Venga, lo digo. Stable Diffusion es (para mí) el producto del año. Este motor de generación de imágenes vía inteligencia artificial se ha convertido en una auténtica revolución que con sus luces y sombras no para de evolucionar. Lo acaba de hacer de forma redonda con la publicación de su versión 2.0 que va aún más lejos de lo que ya fue la primera. Que ya es decir.

Difusión estable 2.0. Este «Linux de los generadores de imágenes por IA» acaba de anunciar su segunda versión estable, y aunque el anuncio detalla las mejoras, lo curioso es que la empresa que lo gestiona todo, Stability.ai, ni siquiera tiene un «landing». page» propiamente dicha para Stable Diffusion. Su sitio web oficial no es más que su repositorio GitHub. Maravilloso, como demuestra que sea el proyecto de GitHub con mayor crecimiento de «estrellas» de toda la historia, superando con creces a anteriores como Bitcoin, Ethereum o Apache Kafka, una plataforma de streaming de eventos.

¿No encontrais Difusión Estable? Normal, porque parece el eje de coordenadas Y. Está ahí, a la izquierda del todo, casi como una pared vertical del resto. Espectacular. Fuente: A16z.

Ver mantiene como referencia absoluta. No fue el primero -DALL-E 2 o Midjourney son igualmente alucinantes- pero la filosofía Open Source de Stable Diffusion ha sido crucial para posicionarse como el gran referente en este campo. Puedes instalarlo localmente o usarlo como complemento de otras aplicaciones como Photoshop o Canva. Ha demostrado un potencial casi ilimitado para creadores, empresas y usuarios convencionales.

Sd2

La conversión de texto-a-imagen se supera a sí misma. Esta versión utiliza un nuevo codificador de texto a imagen llamado OpenCLIP, que según los responsables del proyecto “mejora en gran medida la calidad de las imágenes generadas respecto a las versiones V1”. El motor mantiene los filtros para eliminar contenidos para adultos gracias al filtro NSFW de LAION-5B, el conjunto de imágenes con el que se entrena este modelo

Sd3

Ampliación y más resolución que nunca. Aunque el motor genera de forma nativa imágenes de hasta 768×768 píxeles, un Stable Diffusion 2.0 se incluye un nuevo sistema de escalado que mejora la resolución de las imágenes multiplicada por cuatro. Así, es posible generar imágenes de 2.048×2.048 e incluso más, y hacerlo con una definición fantástica.

Misma base para diferentes imágenes. El modelo de difusión Profundidad a imagen va más allá de lo que se logró con la opción de imagen-a-imagen de la V1. Esa opción nos permitía hacer un boceto rápido de lo que queríamos obtener y Stable Diffusion generaba la imagen en base a eso y al texto descriptivo de la entrada (inmediato). El nuevo modelo puede usar una imagen de base, pero genera no una, sino varias imágenes usando tanto el texto como la información de «profundidad» que da la imagen de partida.



Fuente