Curso de Prompt Engineering

0 de 26 lecciones completas (0%)

4. Prompting en IAs de Imágenes

4.4. Prompt Engineering en Dall·E 2

Esta es una lección de muestra

Inscríbete o accede para hacer esta lección.

Pues venga, vamos allá con Dall·E 2, la herramienta que más rápido se dio a conocer y que más gente conoce.

Lamentablemente, siendo una de las primeras en desarrollarse y con menor atención por parte de sus creadores (que, parece, están más centrados en sus modelos de lenguaje –y con razón), su tecnología se ha quedado un poco desfasada y, en la actualidad, tanto Stable Diffusion como Midjourney están por delante.

Estamos a la espera de Dall·E 3, que, quizá, sea un game-changer otra vez.

Hasta entonces, esta es una herramienta que hay que saber utilizar (además, con buenos prompts aún podemos conseguir buenos resultados).

Venga, ¡vamos!


Más de 3000 orangotanes ya reciben mis emails

Suscríbete a la Niusleta de Joseo20.

Yo sí mando spam. Cuando tengo que vender, vendo. El resto de tiempo envío emails con temas que considero interesantes.

Hablo de todo lo que me sale de los cojones, no sólo de marketing o negocios. Hay política, filosofía y otras gilipolleces.

Es probable que después de leerla me odies.

Incluye orangotanes.


Entendiendo Dall·E 2

Cuando entres a Dall·E 2, te vas a encontrar con una interfaz mucho más sencilla que la que has visto en Stable Diffusion (y mucho más simple de la que verás en Midjourney).

Es esta:

Como ves, tenemos 3 grandes opciones:

  1. Escribir un prompt y generar una imagen en base a él.
  2. Dejarte sorprender y que Dall·E 2 escriba el prompt que le salga de los cojones por ti.
  3. Subir una imagen para jugar con ella.

A diferencia de lo que sucede en Stable Diffusion y en Midjourney, la opción 3 no implica usar la imagen como “prompt image” ni como imagen de partida ni nada que se le parezca.

En este caso, es una herramienta que sólo sirve para hacer inpaintings y outpaintings. Por lo tanto, nosotros no vamos a utilizarla y no la vamos a ver aquí. Si quieres aprender a utilizarla, deberás acceder al Curso de Creación de Contenidos con IA.

Y, como lo de sorprenderte tiene poca magia, pues lo único que nos queda es la opción de generar imágenes.

Y eso es lo que vamos a ver.

Una vez escribas un prompt, llegarás a esta página:

En la parte de la derecha, tendrás tu historial de imágenes generadas.

En la parte superior, podrás escribir otro prompt o usar las demás funcionalidades mencionadas hace un momento.

En el centro, tendrás tus imágenes generadas.

Si haces clic en una de ellas, llegarás a esta otra pantalla:

Desde aquí (en realidad, también desde la pantalla anterior, a través de la esquina superior derecha de cada imagen) podrás generar variaciones, editar la imagen, etc. En nuestro caso, sólo generaremos variaciones, porque editar la imagen nos lleva al inpainting y outpainting.

Si haces clic en generar variaciones, Dall·E 2 se pondrá a trabajar de nuevo y te generará otras cuatro nuevas imágenes similares a la que ya has generado:

Esta funcionalidad está guay y no la tiene Stable Diffusion en DreamStudio (aunque sí Midjourney –además, en Stable Diffusion puedes usar la semilla y jugar con la imagen para resultados similares a los que se obtienen con un clic a “Variaciones”).

Y esto es todo lo que debes saber para jugar con Dall·E 2.

Después de haber visto Stable Diffusion estarás diciendo: “¿EN SERIO? ¿TANTO POR CULO CON STABLE DIFFUSION Y TENGO ESTA OTRA HERRAMIENTA QUE LO HACE TODO CON UN CLIC?”.

Obviamente, la comodidad de Dall·E 2 se paga con menor control sobre las imágenes generadas. Por eso, tanto Stable Diffusion como Midjourney tienen muchos más parámetros, configuraciones, funcionalidades y opciones.

De hecho, vamos a echar un vistazo a las serias limitaciones de Dall·E 2 frente a las altenrativas (y, a tenor de lo que dijo Sam Altman –que quieren mantener Dall·E como súper simple y sin que sea necesario saber Prompt Engineering para utilizarla–, estas limitaciones se mantendrán en futuras versiones).


Más de 3000 orangotanes ya reciben mis emails

Suscríbete a la Niusleta de Joseo20.

Yo sí mando spam. Cuando tengo que vender, vendo. El resto de tiempo envío emails con temas que considero interesantes.

Hablo de todo lo que me sale de los cojones, no sólo de marketing o negocios. Hay política, filosofía y otras gilipolleces.

Es probable que después de leerla me odies.

Incluye orangotanes.


Las limitaciones de Dall·E 2 frente a Stable Diffusion o Midjourney

Un rápido vistazo a las limitaciones más importantes (porque hay más) de Dall·E 2 frente a las alternativas actuales:

No tienes image prompt o imagen de partida

A diferencia de Stable Diffusion y Midjourney, que nos permiten subir una o más imágenes para usarlas como punto de partida en nuestras generaciones, Dall·E 2 no nos ofrece ninguna opción en esta dirección.

Ni para que tome como referencia el estilo, ni la composición, ni nada.

Simplemente, no se puede.

No tienes semilla

Otra gran limitación de Dall·E 2 es que no nos ofrece la semilla de las imágenes generadas para usarla como base en nuevas generaciones.

Por supuesto, esto es un problema grave cuando estamos en fase de refinamiento de imágenes.

Y, cuidado, porque no es que “no haya semilla”. Sí la hay, porque (como ya sabes a estas alturas) lo único que necesitas para tener una semilla es identificar las matrices de ruido que estás usando.

Por tanto, no nos dan la semilla porque no quieren.

No puedes iterar sobre una imagen generada

Y, claro, si ni puedes usar una imagen de partida ni puedes usar una semilla, la consecuencia es que no puedes iterar sobre una imagen generada.

Esto es un problema grave para los que queremos jugar con las imágenes, obtener resultados a partir de ensayo y error, corregir cositas, etc. También es un problema para los que queremos forzar al modelo y descubrir sus secretitos.

Pero, bueno, tiene sentido. Como dijimos, Sam Altman lo que quiere con Dall·E 2 es una herramienta en la que hagas dos clics y obtengas algo funcional. No quiere que sea una herramienta en profundidad.

Un mal enfoque, creo yo.

Pero es lo que hay.                              

No tienes multiprompts ni prompts negativos

A diferencia de las herramientas de la competencia, en Dall·E 2 no vas a tener la opción de utilizar multiprompts, ni prompt weights, ni prompts negativos.

Esto es una seria limitación para ciertos trabajos y nos limita mucho el control que tenemos sobre la generación de imágenes.

No tienes parámetros con los que jugar

Por último, tampoco tienes parámetros con los que jugar. No puedes elegir ni el número de imágenes generadas, ni el número de pasos, ni el grado de libertad que das al modelo, ni las dimensiones, ni la calidad, ni pollas.

De nuevo, esto nos limita enormemente el juego que tenemos con las imágenes que vamos a generar y el control que tenemos sobre la herramienta.

Así que, por todo ello, es normal que digamos que Dall·E 2 está por detrás de la competencia ahora mismo (y, si al menos, generase mejores imágenes, pues podría competir, pero… tampoco es el caso).

Es carísimo

15 pavos por 150 créditos, que cada crédito te permite una generación (bueno, 4, pero es que no puedes cambiar cuántas imágenes generas, así que son 150 trabajos).

Por comprar, con DreamStudio tienes 5000 generaciones por 10$, con Stable Diffusion usado por tu cuenta es virtualmente gratis, en Midjourney tienes, por 30$ al mes, infinitas generaciones.

En fin, que Dall·E 2 tiene menos cositas para jugar, la calidad de las imágenes no es mejor (es peor, de hecho) y, además, es más caro.


Más de 3000 orangotanes ya reciben mis emails

Suscríbete a la Niusleta de Joseo20.

Yo sí mando spam. Cuando tengo que vender, vendo. El resto de tiempo envío emails con temas que considero interesantes.

Hablo de todo lo que me sale de los cojones, no sólo de marketing o negocios. Hay política, filosofía y otras gilipolleces.

Es probable que después de leerla me odies.

Incluye orangotanes.


Entendiendo el prompting en Dall·E 2

Aclarado todo lo anterior, vamos a ver cómo enfocar el prompting en Dall·E 2 (porque, sí, aunque la herramienta sea mucho más mierder que las alternativas, sigue siendo importante conocerla y saber trabajar con ella –aunque sólo sea para saber usarla de cara a un eventual Dall·E 3 que, quizá, mejore la calidad).

Ten en cuenta que, aunque en Stable Diffusion y en Midjourney enseñamos cómo jugamos sobre una misma imagen, en este caso no podremos hacerlo.

Lo que vamos a hacer es jugar sobre el mismo prompt, pero los outputs, lógicamente, cambiarán mucho al no disponer de semillas ni de imágenes de partida.

¿Y qué imagen vamos a generar? Pues un objeto de fantasía (y ya en la lección de Midjourney hacemos un personaje, así vemos un poco de todo).

¡Vamos!

Imágenes de partida

Como ya hemos dicho, en Dall·E 2 no podemos jugar con Imágenes de Partida (salvo para hacer inpaintings y outpaintings), así que nos saltamos esta parte y vamos directamente al input textual.

Input textual

Vamos con el input textual, siguiendo lo visto en la lección de Generalidades.

Descripción

En primer lugar, tenemos describir lo gordo de la imagen. Lo que queremos que se vea en ella. Así que… Vamos.

Sujeto

El sujeto, en esta ocasión, será el objeto. Que, por ejemplo, puede ser un hacha.

Empecemos por un prompt bien simple:

fantasy axe

Muy mejorable. Especifiquemos más las características de nuestra hacha.

fantasy double-bladed axe, very old relic, super powers, magic, jeweled settings, gold on the hilt, edging on the blade, very sharp

Mejor, ¿no?

El estilo es una mierda, pero porque no le hemos puesto estilo, así que nos genera un dibujo así raruno.

Pero está bien.

Sigamos modificando el prompt en los siguientes apartados.

Acciones

En acciones podemos poner que esté relampagueando y vibrando, para que se note que es un objeto fantástico y súper poderoso. Algo así:

fantasy double-bladed axe vibrating and flashing with lightning, very old relic, super powers, magic, jeweled settings, gold on the hilt, edging on the blade, very sharp

Que sí, que sigue siendo una mierda. Pero lo resolveremos con el estilo, los potenciadores y jugando con el prompt al final.

Tú confía.

De momento estamos viendo cómo añadirle cositas para que se adapte mejor a nuestra idea.

Entorno

Ahora, el entorno. Vamos a suponer que está clavada en una roca. Rollo ciclo artúrico.

fantasy double-bladed axe  stuck in a giant rock like in arturic cycle, axe is vibrating and flashing with lightning, very old relic, super powers, magic, jeweled settings, gold on the hilt, edging on the blade, very sharp

Es verdad que algunos detalles que teníamos antes se han perdido, pero eso ya lo intentaremos corregir después con repeticiones y sinónimos.

De momento, quiero ir perfilando todos los elementos en el prompt.

Iluminación

¿Qué iluminación podríamos ponerle a esta hacha? Vamos a ponerle el típico “cinematic light” que suele funcionar bien y pongamos, también, “sunlight”.

fantasy double-bladed axe  stuck in a giant rock like in arturic cycle, axe is vibrating and flashing with lightning, very old relic, super powers, magic, jeweled settings, gold on the hilt, edging on the blade, very sharp, cinematic light, sunlight

No está mal. Seguimos teniendo el problemilla de que ha perdido los detalles que le habíamos dado antes. Pero, insisto, lo trabajaremos luego.

Cámara

Para la cámara, lo que voy a hacer es que la imagen se vea desde abajo. Tiene sentido, ¿no? Es una reliquia, debemos observarla como algo de puta madre. No vamos a verla desde lo alto.

También le pongo “centered” delante para que centre un poco el objeto. He probado “portrait” también, pero no funcionaba muy bien.

centered, fantasy double-bladed axe  stuck in a giant rock like in arturic cycle, axe is vibrating and flashing with lightning, very old relic, super powers, magic, jeweled settings, gold on the hilt, edging on the blade, very sharp, cinematic light, sunlight, shot from below

Más o menos va tomando forma. Vamos a tener que ir trabajando el prompt después para que nos arroje resultados consistentemente buenos, pero, por el momento, va funcionando.

Detalles

Ahora vamos con los detalles y vamos a ver si conseguimos que pille bien las características del hacha:

centered double-bladed axe from fantasy world, very old relic stuck in a giant rock like excalibur, axe is vibrating and flashing with its own magic and lightning super powers, axe have ruby and sapphire settings, axe have gold on the hilt, axe have edging and inscriptions on the blade, axe is very sharp, cinematic light, shot from below

Bueno, la primera no está muy mal, ¿no? La tercera también es aceptable.

He cambiado un poco el orden de los elementos del prompt, he especificado más algunos (rubíes y zafiros en vez de joyas), he sintetizado otros (Excalibur en vez de ciclo artúrico), etc. También he insistido en que el hacha tiene ciertas características.

Parece que, más o menos, ha funcionado.

Ya tenemos nuestra hacha.

Modificadores de estilo

Ahora, modifiquemos los estilos. Vamos a poner solamente “hyper-realistic” y “oil painting”, porque, si no, no nos van a caber los potenciadores:

hyper-realistic fantasy double-bladed axe, very old relic stuck in a rock like excalibur, axe is vibrating and flashing with its own magic and lightning super powers, axe have ruby and sapphire settings, axe have gold on the hilt, axe have inscriptions on the blade, axe is very sharp, from below, oil painting

Es verdad que se pasa por el forro la idea de hyper-realistic, pero el resultado me gusta, así que pa qué liarse más.

También elimino el “centered”, que aporta poca cosa y ocupa espacio. Quito también las referencia a la iluminación, porque no estaba consiguiendo buenos resultados y ocupa espacio. También quito la palabra “shot”, que parece que lleva a Dall·E 2 hacia la fotografía y no es lo que quiero.

Por el momento, lo dejo así.

Potenciadores

Y, ahora, para terminar, le meto algunos potenciadores al final del prompt:

hyper-realistic fantasy double-bladed axe, very old relic stuck in a rock like excalibur, axe is vibrating and flashing with its own magic and lightning super powers, axe have ruby and sapphire settings, axe have gold on the hilt, axe have inscriptions on the blade, axe is very sharp, from below, oil painting, intrincated details, 8 k, 4 k, highly detailed, fantasy vivid colors, intrincate artwork

He elegido 3 imágenes que han salido bien con ese prompt. Obviamente, aparece bastante mierda por ahí también. Pero, bueno, es bastante estable, generando una o dos buenas imágenes en cada generación.

Con Dall·E 2 no vas a conseguir mucho más, la verdad.

Oye… pero cuánta vuelta, ¿no?

Pues sí, y todo para conseguir resultados mediocres si los comparamos con lo que genera Midjourney o Stable Diffusion.

Pero es lo que hay.

También es verdad que hemos ido pasito a pasito para ver cómo se construye un prompt complejo (podrías haberlo hecho directamente o saltándote pasos). Y también es verdad que Dall·E 2 funciona mejor con prompts sencillos y dejando que haga él lo que quiera (estos prompts detallados funcionan mejor en Stable Diffusion o, sobre todo Midjourney).

Pero, claro, si diera un par de clics y generásemos algo, pues vaya mierda de guía de Prompt Engineering, ¿no?


Más de 3000 orangotanes ya reciben mis emails

Suscríbete a la Niusleta de Joseo20.

Yo sí mando spam. Cuando tengo que vender, vendo. El resto de tiempo envío emails con temas que considero interesantes.

Hablo de todo lo que me sale de los cojones, no sólo de marketing o negocios. Hay política, filosofía y otras gilipolleces.

Es probable que después de leerla me odies.

Incluye orangotanes.


Trucos de Prompt Engineering para Dall·E 2

Para terminar, vamos a ver algunos trucos de Prompt Engineering concretos para el caso de Dall·E 2:

Puedes usar prompts largos (aunque no es necesario ni, a veces, recomendable)

Como has podido ver, Dall·E 2 acepta prompts bastante largos (de hasta 400 caracteres). Por tanto, puedes ser todo lo específico y detallado que quieras.

Eso sí, no siempre es recomendable.

Ya hemos dicho que Dall·E 2 es mejor dándole un breve input y dejándole hacer lo que le salga de los huevos.

Esa es la mejor forma de conseguir buenos resultados.

Bueno, no, hay otra forma mejor: No usar Dall·E 2.

Debes generar BASTANTES imágenes

Como la calidad no es demasiado buena y el modelo también es que vaya como un tiro, lo más probable es que tengas que generar bastantes imágenes hasta dar con unas cuantas que te gusten.

Esto puede hacerte gastar bastante pasta (porque, además, como ya hemos visto, Dall·E 2 es comparativamente caro), salvo que hagas caso a nuestro siguiente consejo.

Cuentas múltiples

Si quieres usar Dall·E 2 sin gastarte una pasta, puedes crearte varias cuentas para disfrutar de sus créditos gratis, tal y como podías hacer con Stable Diffusion.

Aunque en Stable Diffusion no recomendaba hacerlo (porque era un coñazo), aquí si lo recomiendo, porque te dará para hacer unas cuantas generaciones más y, además, como es más caro, pues compensa más no pagar.

Y otra razón por la que sí lo recomiendo es que, como es una peor herramienta, la usarás menos. Si sólo la quieres para trastear, pues con un par de cuentas gratuitas tienes suficiente.

Censura

Por último, hay que mencionar que Dall·E 2 tiene la mayor censura de todas las IAs generativas.

No sólo no vas a poder generar imágenes porno o NSFW en general, sino que tampoco podrás generar imágenes de celebridades y personas conocidas.

Así que, como ves, tenemos muchas limitaciones en Dall·E 2. Veremos si cambian el chip con Dall·E 3 o no.

Deja un comentario