Este 20 de septiembte, el CEO de OpenAI, Sam Altman, presentó su última innovación, DALL – E 3, que marca un salto significativo en la síntesis de texto a imagen. Con el nuevo modelo, se ofrece un matiz incomparable en la comprensión y traducción de indicaciones complejas que se convierten en imágenes precisas. Sin embargo, la verdadera maravilla radica en los increíbles detalles que ofrece esta versión, con los que sobresale de su predecesor, DALL – E 2.
DALL – E 3: Síntesis de imagen redefinida
La capacidad de DALL · E 3 se extiende a la creación de imágenes vibrantes y expresivas que son visualmente atractivas y excepcionalmente a partir de fieles instrucciones de texto proporcionadas.
Los sistemas anteriores frecuentemente pasaban por alto palabras o descripciones específicas, lo que obligaba a los usuarios a incursionar en la ingeniería rápida. Por lo tanto, con el nuevo modelo, este problema se convierte en cosa del pasado, ya que incluso con el mismo mensaje, los resultados son muy superiores a los de DALL – E 2.
Una de las características destacadas de DALL-E 3 es poder integrar sin ningún obstáculo el texto legible directamente en las imágenes que crea. Este notable avance fue una hazaña desafiante para su predecesor, DALL-E 2. Además, continúa superando a muchos modelos de inteligencia artificial (IA) generadores de imágenes que son sus competidores, incluido el prominente Midjourney.
De esta forma, OpenAI afirma que DALL-E 3 cuenta con mejoras significativas, especialmente en su capacidad para generar texto dentro de una imagen al tiempo que mejora los detalles humanos, como las manos. Este logro subraya el compromiso de la empresa por ofrecer tecnologías de IA de última generación al mundo.
Una combinación con ChatGPT
En una demostración en video que publicó el CEO de OpenAI, Sam Altman, en la red social X, muestra las nuevas capacidades de DALL-E 3, cortesía de su integración con ChatGPT. El material audiovisual revela un estilo dinámico y atractivo de conversación, destacando la impresionante sinergia entre estos modelos de IA.
Cabe destacar que, esta innovación no se limita solo a la generación de imágenes. Gracias a su construcción de forma nativa en ChatGPT, DALL – E 3 se integra perfectamente con el chatbot. Por lo tanto, los usuarios ahora pueden hacer una lluvia de ideas con ChatGPT, refinando las indicaciones para lograr el resultado visual deseado.
Además, si una imagen no alcanza la marca perfectamente, ChatGPT puede ajustarla según los comentarios del usuario. Esta experiencia colaborativa entre el usuario, ChatGPT y DALL – E 3 aporta una nueva perspectiva al mundo del diseño y la síntesis de imágenes.
Sumado a ello, OpenAI planea poner DALL – E 3 a disposición de los clientes de ChatGPT Plus y Enterprise a principios de octubre. El servicio permitirá que los clientes que posean imágenes creadas con el modelo puedan usarlas como lo consideren adecuado para reimprimir, vender u otros esfuerzos comerciales.
Diferencias con sus competidores
Uno de los desafíos perdurables que enfrentan los modelos de IA como Midjourney y Stable Diffusion, así como las versiones anteriores de DALL E, ha sido su lucha por transformar imágenes mentales intrincadas en imágenes tangibles. Sin embargo, la nueva versión parece haber descifrado la respuesta a este problema.
El avance de DALL-E 3 radica en su capacidad para representar fielmente escenas repletas de objetos específicos y las complicadas relaciones entre ellos. A diferencia de sus competidores, que se destacan en la representación de caracteres y objetos solitarios, DALL E 3 puede tejer sin problemas varios elementos según la descripción del mensaje.
Frente a este panorama, DALL E 3 de OpenAI se convierte en una revolución para la síntesis de imágenes. A medida que avanza la tecnología, los límites entre la imaginación y la realidad se desdibujan, y esta innovación reciente es un testimonio de ello.