¿Cómo funcionan DALL·E 2, Stable Diffusion y Midjourney?

Bootcamp AI
6 min readMay 22, 2023

Antes de iniciar intentalo tú mismo con Itai un chatbot con los nuevos avances en IA generativa, escribe. “Creame una imagen de…”

En los últimos años, se han realizado muchos avances en inteligencia artificial (IA), y una de las nuevas incorporaciones a la IA es AI Image Generator . Es una herramienta capaz de convertir una declaración de entrada en una imagen o pintura. Hay muchas opciones para las herramientas de IA de texto a imagen, pero las que se destacan son DALLE 2, Stable Diffusion y Midjourney.

DALL·E 2

DALL·E 2 es un programa de IA creado por OpenAI que crea imágenes a partir de descripciones textuales. Usando más de 10 mil millones de versiones de entrenamiento de parámetros del modelo de transformador GPT-3, interpreta entradas de lenguaje natural y genera la imagen correspondiente.

Difusión estable

Stable Diffusion es un modelo de texto a imagen que utiliza un codificador de texto CLIP ViT-L/14 congelado para ajustar el modelo en las indicaciones de texto. Separa el proceso de creación de imágenes en un proceso de “difusión” en tiempo de ejecución: comienza solo con ruido y mejora gradualmente la imagen hasta que está completamente libre de ruido, acercándose progresivamente a la descripción de texto proporcionada.

Midjourney

Midjourney es otra herramienta impulsada por IA que genera imágenes a partir de las indicaciones del usuario. MidJourney es competente en la adaptación de estilos artísticos reales para crear una imagen de cualquier combinación de cosas que el usuario desee. Sobresale en la creación de entornos, especialmente escenas de fantasía y ciencia ficción, con una iluminación espectacular que parece el arte conceptual renderizado de un videojuego.

La tecnología detrás de DALL·E 2

DALL·E 2 consta principalmente de 2 partes: una para convertir la entrada del usuario en la representación de una imagen (llamada Prior ) y otra para convertir esta representación en una foto real (llamada Decoder ).

Las incrustaciones de texto e imágenes utilizadas provienen de otra red llamada CLIP (Contrastive Language-Image Pre-training), también creada por OpenAI. CLIP es una red neuronal que devuelve el mejor título para una imagen de entrada. Hace lo contrario de lo que hace DALLE 2: conversión de texto a imagen. El objetivo de CLIP es aprender la conexión entre la representación visual y textual de un objeto.

El objetivo de DALL·E 2 es entrenar dos modelos. El primero es Prior, capacitado para tomar etiquetas de texto y crear incrustaciones de imágenes CLIP. El segundo es el decodificador, que toma las incrustaciones de imágenes CLIP y produce una imagen aprendida. Después del entrenamiento, el flujo de trabajo de inferencia se ve así:

  • El título ingresado se transforma en un texto CLIP incrustado mediante una red neuronal.
  • Prior reduce la dimensionalidad de la incrustación de texto mediante el análisis de componentes principales o PCA.
  • La incrustación de imágenes se crea utilizando la incrustación de texto.
  • En el paso del decodificador, se utiliza un modelo de difusión para transformar la imagen incrustada en la imagen.
  • La imagen se amplía de 64 × 64 a 256 × 256 y finalmente a 1024 × 1024 utilizando una red neuronal convolucional.

La tecnología detrás de la difusión estable

Stable Diffusion funciona con Latent Diffusion Model (LDM), una técnica de síntesis de texto a imagen de vanguardia. Antes de comprender cómo funcionan los LDM, veamos qué son los modelos de difusión y por qué necesitamos LDM.

Los modelos de difusión (DM) son modelos generativos basados ​​en transformadores que toman un dato, por ejemplo, una imagen, y gradualmente agregan ruido con el tiempo hasta que no es reconocible. A partir de ese momento, intentan reconstruir la imagen a su forma original y, al hacerlo, aprenden a generar imágenes u otros datos.

El problema con los DM es que los poderosos a menudo consumen cientos de días de GPU y la inferencia es bastante costosa debido a las evaluaciones secuenciales. Para habilitar el entrenamiento de DM en recursos computacionales limitados sin comprometer su calidad ni su flexibilidad, los DM se aplican en el espacio latente de potentes codificadores automáticos preentrenados.

Entrenar un modelo de difusión en tal representación permite lograr un punto óptimo entre la reducción de la complejidad y la preservación de los detalles, mejorando significativamente la fidelidad visual. La introducción de una capa de atención cruzada en la arquitectura del modelo convierte el modelo de difusión en un generador potente y flexible para entradas generalmente condicionadas, como texto y cuadros delimitadores, lo que permite la síntesis basada en convolución de alta resolución.

¿Cómo funciona Midjourney?

Midjourney es una herramienta de generación de imágenes de IA que toma entradas a través de indicaciones de texto y parámetros y utiliza un algoritmo de aprendizaje automático (ML) entrenado en una gran cantidad de datos de imágenes para producir imágenes únicas.

Actualmente, solo se puede acceder a Midjourney a través del bot de Discord en su Discord oficial. El usuario genera la imagen usando el comando ‘/imagine’ e ingresa al símbolo del sistema como cualquier otra herramienta de generación de arte de IA. El bot luego devuelve un chasquido.

Comparación entre DALL·E 2, Difusión Estable y Midjourney

DALL·E 2 ha sido entrenado en millones de imágenes de archivo, lo que hace que su salida sea más sofisticada y perfecta para uso empresarial. DALL·E 2 produce una imagen mucho mejor que Midjourney o Stable Diffusion cuando hay más de dos caracteres.

Midjourney, por otro lado, es una herramienta mejor conocida por su estilo artístico. Midjourney usa su bot Discord para enviar y recibir llamadas a servidores de IA, y casi todo sucede en Discord. La imagen resultante rara vez parece una fotografía; parece más una pintura.

Stable Diffusion es un modelo de código abierto accesible para todos. También tiene una comprensión relativamente buena de la ilustración artística contemporánea y puede producir obras de arte muy detalladas. Sin embargo, necesita una interpretación del complejo mensaje original. Stable Diffusion es excelente para ilustraciones complejas y creativas, pero se queda corto cuando se crean imágenes generales, como logotipos.

Las siguientes indicaciones ayudan a comprender las similitudes y diferencias entre cada modelo.

Referencias:

--

--