Curso de Prompt Engineering

0 de 26 lecciones completas (0%)

4. Prompting en IAs de Imágenes

4.2. Prompt Engineering en IAs de Imágenes (Generalidades)

Esta es una lección de muestra

Inscríbete o accede para hacer esta lección.

Vale, pues ahora que ya entendemos bien cómo funcionan estos bichos por dentro y qué particularidades tiene cada uno de ellos, pasemos al Prompt Engineering propiamente dicho.

Y, como ya he dicho en más de una ocasión: Aquí el Prompt Engineering va a tener mucho menos lenguaje natural y, además, va a ser ligeramente distinto en cada IA Generativa de Imágenes.

Por tanto, en este primer apartado te voy a contar algunos trucos y aspectos generales del Prompt Engineering en las IAs de Imágenes y, después, iremos herramienta a herramienta viendo cómo sacarles el máximo partido.

Pero antes…


Más de 3000 orangotanes ya reciben mis emails

Suscríbete a la Niusleta de Joseo20.

Yo sí mando spam. Cuando tengo que vender, vendo. El resto de tiempo envío emails con temas que considero interesantes.

Hablo de todo lo que me sale de los cojones, no sólo de marketing o negocios. Hay política, filosofía y otras gilipolleces.

Es probable que después de leerla me odies.

Incluye orangotanes.


¡QUE NO TE ENTIENDE!

Antes de nada, debo insistir en que estas IAs NO te entienden.

Recuerda lo que decíamos de CLIP: No está pensado para comprender el lenguaje natural y, por tanto, no entiende ciertas sutilezas del lenguaje ni cómo ciertas palabras y conceptos afectan a otros.

Quizá en próximas versiones arreglen este problema. Pero, hoy por hoy, las IAs Generativas de Imágenes NO entienden lo que les estás pidiendo.

Lo máximo que pueden hacer es comprender más o menos los conceptos que le pides y representarlos de forma más o menos aleatoria.

¿Qué significa esto?

Pues que no vas a poder controlar correctamente y al detalle las composiciones que generes.

No, al menos, con el simple text-to-image básico que tienen todos los modelos. Es decir, no con la generación “básica” que todos tenemos en mente.

¿Por qué?

Mira lo que pasa si le pido que genere una pelota de fútbol bajo una pelota de básket.

a football ball under a basketball ball

No entiende el concepto de “debajo”.

Y mira lo que pasa si le digo que, en vez de debajo, esté detrás:

a football ball behind a basketball ball

En algún sentido, entiende el concepto “detrás”, pero no termina de tener claro qué implicaciones tiene ese concepto. Por eso pone una cosa detrás de otra y le suda la polla. A veces acierta, a veces no.

Que no entiende bien el concepto de “detrás” puedes verlo en este otro ejemplo:

2 balls. 1 football ball and 1 basketball ball. The football ball is behind the basketball ball. The basketball ball is so big that the football ball isn't visible at all 

Si le preguntas a ChatGPT qué ves si, mirando frontalmente, hay una pelota de basket tan grande que oculta la de fútbol, obviamente te va a decir que sólo ves la pelota de basket.

Y si le preguntas cuántas pelotas hay, te va a decir que dos, pero que una no se ve.

Pero ese nivel de comprensión no está al alcance de las IAs Generativas de Imágenes, todavía.

Y, cuidado, porque no es tema menor. Si te paras a pensarlo, el modelo de lenguaje tiene una comprensión del espacio muchísimo más profunda que el modelo generativo de imágenes.

Manda huevos.

En resumen: A las IAs de Imágenes actuales se les hace cuesta arriba todo lo que tiene que ver con comprender el espacio, la distribución espacial y las implicaciones de ciertos conceptos respecto a los demás conceptos del input.

Y, obviamente, si se te hace cuesta arriba la distribución espacial y la relación entre conceptos, pues difícilmente vas a ser capaz de respetar lo que el usuario te está pidiendo.

Por eso, en muchas ocasiones, te pones a buscar buenos prompts por ahí y los pruebas y dices “oh, qué bien funciona este prompt, qué buen resultado”. Pero, si te fijas, o bien ese prompt es muy poco descriptivo en lo que desea a nivel de composición y distribución de los elementos o bien la IA ha ignorado buena parte del prompt y, simplemente, ha generado algo guapo, pero sin seguir las indicaciones del prompt.

Lo que quiero que entiendas es que la IA no entiende bien lo que deseas generar. Comprende y acepta los conceptos a un nivel general y los mezcla para conseguir algo coherente, pero no necesariamente orientado como tú lo habías orientado.

Así que, lo siento mucho, pero la IA no entiende lo que quieres. Y eso va a afectar a tu control sobre la generación.

Después, usando img-to-img, depth-to-image y ControlNet (todo ello herramientas y funcionalidades únicamente disponibles en Stable Diffusion) sí puedes conseguirlo, pero eso no lo vamos a abordar en este curso de Prompt Engineering, sino en el Curso de Creación de Contenidos con IA.


Más de 3000 orangotanes ya reciben mis emails

Suscríbete a la Niusleta de Joseo20.

Yo sí mando spam. Cuando tengo que vender, vendo. El resto de tiempo envío emails con temas que considero interesantes.

Hablo de todo lo que me sale de los cojones, no sólo de marketing o negocios. Hay política, filosofía y otras gilipolleces.

Es probable que después de leerla me odies.

Incluye orangotanes.


Entonces… ¿No puedo generar lo que yo quiera?

Para concluir este primer apartado, quiero que quede claro que, cuando usas estas herramientas a pelo (ya digo, sin funcionalidades extra), no tienes control sobre lo que vas a generar.

Puedes guiar la generación, pero no vas a lograr llevarla exactamente a donde tú quieras. Y, cuanto más complejo sea lo que deseas, más difícil será llevarlo hasta allí (obviamente).

Por tanto, no esperes describir a la perfección una imagen con palabras y que la IA genere algo acorde. Eso no va a pasar.

Lo mejor a lo que puedes aspirar es a que la IA te dé unos buenos resultados que, aunque no encajen con lo que habrías esperado, te satisfagan (a veces, más que lo que tú pensabas conseguir).

Esto aplica, sobre todo, a cuestiones de composición, pero también te sucederá con aspectos como los detalles, especialmente cuando el prompt sea bastante largo.

Estructura básica de un buen prompt en IAs de Imágenes

Aclarado lo anterior, pasemos a ver cuál es la estructura básica de un prompt para generar imágenes, tal como, en su día, hicimos con los prompts de texto.

Este es un ejemplo de prompt completo con su resultado:

<image input> wounded muscular Cimmerian warrior on top of a pile of rotten skulls in a gorge, fully covered in blood armed with a sword facing his enemies while laughing with macabre laughter, dramatic lighting, shadows in caravaggio style, character portrait by Nína Tryggvadóttir, captures raw emotions, in the style of emotionally charged scenes, movie still, highly saturated pigments, 8k, gothcore, 32k uhd, disfigured forms, dusan djukaric, andrzej sykut --ar 2:3 --iw 0.75

No te preocupes, es fácil de entender cuando se desgrana bien el prompt y se explica parte por parte.

Y eso es justo lo que vamos a hacer ahora.

Eso sí, como en las siguientes lecciones vamos a ir aplicando todo lo que vamos a ver aquí, esta primera lección va a ser puramente teórica. No voy a ir haciendo imágenes para ilustrarlo. Eso ya lo verás en las próximas lecciones (especialmente en la de Midjourney, que es la que más domino –porque es la más fácil, también te digo).

Aclarado esto… Vamos!

Imágenes de partida

Lo primero son las imágenes de partida.

En nuestro prompt de ejemplo, sería esto:

<image input> wounded muscular Cimmerian warrior on top of a pile of rotten skulls in a gorge, fully covered in blood armed with a sword facing his enemies while laughing with macabre laughter, dramatic lighting, shadows in caravaggio style, character portrait by Nína Tryggvadóttir, captures raw emotions, in the style of emotionally charged scenes, movie still, highly saturated pigments, 8k, gothcore, 32k uhd, disfigured forms, dusan djukaric, andrzej sykut --ar 2:3 --iw 0.75

En la mayoría de las herramientas de generación de imágenes con IA permiten incluir una o varias imágenes de referencia para guiar la generación del modelo de difusión.

Recuerda que estos modelos pueden ser guiados a partir de texto, a partir de imágenes o a partir de ambos.

Hay dos grandes motivos por los que puedes querer usar imágenes de partida:

  1. Tomar su estilo o diseño general.
  2. Composición y distribución de los elementos.

Pues bien, dependiendo de si lo que quieres es una cosa u otra, deberás usar una herramienta u otra (de las que vamos a abordar en este curso). Estas herramientas son Stable Diffusion y Midjourney.

Si lo que quieres es usar una imagen como forma de dirigir la IA hacia un determinado estilo, tendrás que usar Midjourney. Midjourney te permite no sólo esto, sino que también te permite subir varias imágenes y combinar sus estilos.

También tomará elementos de la imagen, pero se centrará en el estilo y sólo respetará en profundidad los elementos originales si van acorde al prompt textual. Si no, intentará hacer caso a tu prompt (con un resultado probablemente desastroso, porque las imágenes de partida también seguirán teniendo un peso).

Si lo que quieres es usar una imagen para que guíe a la IA en cuanto a composición y distribución de los elementos, deberás usar Stable Diffusion.

Stable Diffusion reconocerá si lo que hay a un lado es un árbol o una pelota de fútbol (más o menos) y, en la medida en que tu prompt sea descriptivo y encaje, tratará de respetar esa composición.

Naturalmente, Stable Diffusion también se dejará llevar por el estilo, pero en menor medida que por la composición.

Además, en ambos casos tendrás algunos parámetros con los que controlar cómo afecta la imagen de partida a los resultados finales.

¿Y qué hay de Dall·E 2?

Pues nada, porque Dall·E no ofrece ninguna opción en esta dirección. Así que olvídate.

Input textual

La segunda parte del prompt es el input textual. Es decir, lo que generalmente se entiende por “prompt”, el texto que le dice a la IA lo que debe hacer. Lo que también se llama text-to-image.

Esta parte de aquí:

<image input> wounded muscular Cimmerian warrior on top of a pile of rotten skulls in a gorge, fully covered in blood armed with a sword facing his enemies while laughing with macabre laughter, dramatic lighting, shadows in caravaggio style, character portrait by Nína Tryggvadóttir, captures raw emotions, in the style of emotionally charged scenes, movie still, highly saturated pigments, 8k, gothcore, 32k uhd, disfigured forms, dusan djukaric, andrzej sykut --ar 2:3 --iw 0.75

Pues bien, este input textual se puede dividir, a su vez, en varias partes.

Ten en cuenta que, cuando estés trabajando generando imágenes, no irás parte a parte como vamos a ver nosotros a lo largo de las distintas lecciones.

Lo normal es que pongas varios elementos juntos del tirón. Y está bien. Pero luego revisa que hayas puesto los demás elementos (salvo que quieras omitir alguno deliberadamente).

Venga, vamos.

Sujeto

El sujeto es la primera parte del prompt, la que indica qué es lo que queremos describir. El personaje, digamos (por eso, cuando queremos hacer paisajes, pues podemos saltarnos esta parte –y la siguiente).

Esta parte de aquí:

<image input> wounded muscular Cimmerian warrior on top of a pile of rotten skulls in a gorge, fully covered in blood armed with a sword facing his enemies while laughing with macabre laughter, dramatic lighting, shadows in caravaggio style, character portrait by Nína Tryggvadóttir, captures raw emotions, in the style of emotionally charged scenes, movie still, highly saturated pigments, 8k, gothcore, 32k uhd, disfigured forms, dusan djukaric, andrzej sykut --ar 2:3 --iw 0.75

Básicamente, aquí estamos indicando a la IA el “qué” de nuestra imagen.

La mayoría de gente que empieza a jugar con estas herramientas, salvo que copie algún prompt de por ahí, lo que hace es escribir esta primera parte (y mal) y tirárselo a la IA.

En consecuencia, obtiene un resultado mediocre o poco personalizado (a veces, la IA genera buenos resultados, pero con poca originalidad –esto pasa mucho con Midjourney).

Y es que esta es sólo la primera parte de un buen input textual.

Por tanto, esto no es suficiente.

Ahora bien, que con esto únicamente no sea suficiente, no significa que no sea importante.

La descripción de la imagen es fundamental para conseguir un buen resultado.

Y no es para nada fácil lograr que la IA entienda correctamente lo que estás describiendo (aunque hagas una descripción excelente).

Pero, no te preocupes, al final de esta lección te mostraré varios trucos para mejorar tus inputs textuales y conseguirás que las IAs te hagan bastante caso.

Acción

Después, tenemos la acción. Es decir, lo que está haciendo el sujeto. Esto es fundamental para dar dinamismo a la imagen generada.

Es esta parte de aquí:

<image input> woundedmuscular Cimmerian warrioron top of a pile of rotten skulls in a gorge, fully covered in blood armed with a sword facing his enemies while laughing with macabre laughter, dramatic lighting, shadows in caravaggio style, character portrait by Nína Tryggvadóttir, captures raw emotions, in the style of emotionally charged scenes, movie still, highly saturated pigments, 8k, gothcore, 32k uhd, disfigured forms, dusan djukaric, andrzej sykut --ar 2:3 --iw 0.75

La acción puede implicar mucho movimiento (saltar, por ejemplo) o algo que mantenga el asunto bastante estático, pero indique un “cómo” (riendo, por ejemplo).

Date cuenta de que podríamos entender “laughing with macabre laughter” como la acción entera. Sin embargo, como hay un apartado de “detalles”, lo voy a meter ahí. Pero, como ves, se mezclan las cosas y está bien que así sea.

Entorno

Después le tenemos que definir el entorno. Es el lugar en el que se encuentra el sujeto y está transcurriendo la acción.

Es el “dónde” (aunque sería el “qué” si lo que estamos haciendo es un paisaje, pero yamentiendes).

Es la parte de aquí:                                                     

<image input> woundedmuscular Cimmerian warrior on top of a pile of rotten skulls in a gorge, fully covered in blood armed with a sword facing his enemies while laughing with macabre laughter, dramatic lighting, shadows in caravaggio style, character portrait by Nína Tryggvadóttir, captures raw emotions, in the style of emotionally charged scenes, movie still, highly saturated pigments, 8k, gothcore, 32k uhd, disfigured forms, dusan djukaric, andrzej sykut --ar 2:3 --iw 0.75                                                                                                 

Fíjate que, aquí, indico dos elementos de Entorno. Por un lado, un entorno como todos podríamos suponer: “in a gorge”. Sin embargo, también indico un entorno mucho más concreto, que es “on top of a pile of (rotten) skulls”.

Al describir el entorno, puedes imaginarlo como varios niveles de profundidad. Desde lo más general hasta lo más concreto (otra cosa es que la IA te haga caso). Podrías pensar en un paisaje general, una región concreta y un sub-elemento en el que está el sujeto.

Por ejemplo.

Como en el caso anterior, el término “rotten” lo considero un detalle, por lo que lo señalo en negrita en el apartado de “Detalles”. No obstante, perfectamente podría considerarse parte del entorno.

Iluminación

Luego tenemos que indicar la iluminación. Y su hermano malo, la sombra.

Es la parte de aquí:

<image input> woundedmuscular Cimmerian warrioron top of a pile of rotten skulls in a gorge, fully covered in blood armed with a sword facing his enemies while laughing with macabre laughter, dramatic lighting, shadows in caravaggio style, character portrait by Nína Tryggvadóttir, captures raw emotions, in the style of emotionally charged scenes, movie still, highly saturated pigments, 8k, gothcore, 32k uhd, disfigured forms, dusan djukaric, andrzej sykut --ar 2:3 --iw 0.75

La verdad, la razón de añadir “dramatic lighting” es más por potenciador que por definición de imagen, porque ya me venía muy dada por la imagen que usé como input. Pero bueno, me entiendes. Aquí puedes poner los elementos de luz: Sunlight, luz volumétrica o lo que te salga de los huevos.

Por cierto, “shadows in Caravaggio style” también podría considerarse (y, de hecho, es) un modificador de estilo. Pero también configura la cuestión de la iluminación, así que lo dejo señalado aquí también.

Cámara

Y ya hacia el final, tenemos la cámara y el tipo de “shot” que hacemos a la imagen, por decirlo de algún modo.

Aunque hable de “Cámara”, no hablo de fotos. Hablo del punto de vista desde el que ves al sujeto y a la composición en general.

Es la parte de aquí:

<image input> woundedmuscular Cimmerian warrioron top of a pile of rotten skulls in a gorge, fully covered in blood armed with a sword facing his enemies while laughing with macabre laughter, dramatic lighting, shadows in caravaggio style, character portrait by Nína Tryggvadóttir, captures raw emotions, in the style of emotionally charged scenes, movie still, highly saturated pigments, 8k, gothcore, 32k uhd, disfigured forms, dusan djukaric, andrzej sykut --ar 2:3 --iw 0.75

En este campo hay muchísimos conceptos y términos que se pueden usar, pero yo conozco muy poquitos. Hay algunos frikazos que incluso especifican tamaño de lentes y marcas y modelos de cámaras de fotos para sus prompts.

No he comprobado qué tan bien funciona, pero imagino que, para imágenes de calidad fotográfica, irá bien.

En cualquier caso, debes tener cuidado con las cámaras porque, si usas términos muy fotográficos, puedes condicionar a la IA a irse hacia un estilo fotográfico. Y quizá no es lo que estás buscando.

Detalles

Por último, puedes revisar el prompt para añadir detalles que consideres oportunos.

Es la parte de aquí:

<image input> wounded muscular Cimmerian warrioron top of a pile of rotten skulls in a gorge, fully covered in blood armed with a sword facing his enemies while laughing with macabre laughter, dramatic lighting, shadows in caravaggio style, character portrait by Nína Tryggvadóttir, captures raw emotions, in the style of emotionally charged scenes, movie still, highly saturated pigments, 8k, gothcore, 32k uhd, disfigured forms, dusan djukaric, andrzej sykut --ar 2:3 --iw 0.75

Ya sabes, reflejos, emociones, expresiones, particularidades de un elemento, etc.

También puedes aprovechar para hacer aparecer elementos que no están apareciendo, a pesar de estar presentes en tu prompt. En el apartado de trucos (un poco más abajo) doy algunos y los recordaré en las lecciones concretas de las diferentes IAs.

Modificadores de estilo

Un modificador de estilo es un fragmento de texto que sistemáticamente y de forma consistente genera como output un determinado estilo en las imágenes.

Es la parte de aquí:

<image input> woundedmuscular Cimmerian warrioron top of a pile of rotten skulls in a gorge, fully covered in blood armed with a sword facing his enemies while laughing with macabre laughter, dramatic lighting, shadows in caravaggio style, character portrait by Nína Tryggvadóttir, captures raw emotions, in the style of emotionally charged scenes, movie still, highly saturated pigments, 8k, gothcore, 32k uhd, disfigured forms, dusan djukaric, andrzej sykut --ar 2:3 --iw 0.75

Existen muchos modificadores de estilo y se pueden categorizar de distintas formas, yo propongo esta (por supuesto, no es necesario usar todos estos y aquí, seguramente, no estén todos los que son):

Modificadores de corriente o movimiento

En primer lugar, tenemos los modificadores de corriente o movimiento artístico. Es lo que entenderíamos puramente como “modificador de estilo”.

Es la parte de aquí:

<image input> woundedmuscular Cimmerian warrioron top of a pile of rotten skulls in a gorge, fully covered in blood armed with a sword facing his enemies while laughing with macabre laughter, dramatic lighting, shadows in caravaggio style, character portrait by Nína Tryggvadóttir, captures raw emotions, in the style of emotionally charged scenes, movie still, highly saturated pigments, 8k, gothcore, 32k uhd, disfigured forms, dusan djukaric, andrzej sykut --ar 2:3 --iw 0.75

Como ves, puedes ser tan genérico como “impresionismo” o “surrealismo” o irte a lo concreto, como “gothcore”. También puedes limitarte a una única palabra específica o irte a una descripción más vaga, como “in the style of emotionally charged scenes”.

Modificadores de soporte o medio

También tenemos los modificadores de soporte o medio, que son… Pues eso, el soporte donde se está llevando a cabo “la obra”.

Es la parte de aquí:

<image input> woundedmuscular Cimmerian warrioron top of a pile of rotten skulls in a gorge, fully covered in blood armed with a sword facing his enemies while laughing with macabre laughter, dramatic lighting, shadows in caravaggio style, character portrait by Nína Tryggvadóttir, captures raw emotions, in the style of emotionally charged scenes, movie still, highly saturated pigments, 8k, gothcore, 32k uhd, disfigured forms, dusan djukaric, andrzej sykut --ar 2:3 --iw 0.75

El soporte o medio puede ser ilustración, fotografía, escultura, película, etc.

En este caso, con “movie still” ya le indicamos que tiene que tener un rollo peliculero.

Modificadores de época

Luego están los modificadores de época.

Por ejemplo, años 60, barroco, renacimiento, etc.

En nuestro prompt no utilizamos este modificador, pero ya entiendes por dónde voy.

Hay que tener cuidado con este modificador, porque puede que sólo quieras el estilo de los años 60, pero es posible que el prompt haga que la tía que estás tratando de generar aparezca vestida como en los años 60.

Es decir, hay que ir con cuidado con cómo va a entender la IA tu modificador, porque estos modificadores de época suelen tener aparejados diferentes elementos estilísticos que, probablemente, también acaben incorporándose en la generación.

De hecho, estos modificadores conviene usarlos solos, porque actúan como un modificador que integra varios modificadores en su interior.

Modificadores de autor

Luego tenemos los modificadores de autor. La verdad, este modificador lo podríamos entender como una sub-sección de los modificadores de estilo. Porque, al final, si metemos a un autor es porque queremos reproducir (o mezclar) su estilo.

Es la parte de aquí:

<image input> woundedmuscular Cimmerian warrioron top of a pile of rotten skulls in a gorge, fully covered in blood armed with a sword facing his enemies while laughing with macabre laughter, dramatic lighting, shadows in caravaggio style, character portrait by Nína Tryggvadóttir, captures raw emotions, in the style of emotionally charged scenes, movie still, highly saturated pigments, 8k, gothcore, 32k uhd, disfigured forms, dusan djukaric, andrzej sykut --ar 2:3 --iw 0.75

Puedes ir por autores conocidos, como Dalí o Van Gogh, o puedes irte por otros más desconocidos, como los que ves en este prompt.

Ahora bien, ten en cuenta que, si el autor es muy raro, quizá la IA no lo conozca.

¿Cómo saber si la IA conoce al autor que te interesa?

Pues le pasas un concepto que utilice habitualmente ese artista y pones “by [artista]”. Si el resultado se parece a lo que ese autor suele hacer, pues la IA lo conoce. Si no, pues no.

Ay, pero es que yo quiero el estilo de este artista y la IA no lo conoce”. Pues tienes dos opciones: O bien te jodes y bailas, o bien te lo curras y mezclas estilos y autores hasta dar con algo que se le parezca.

No hay caminos rápidos en ese caso.

Modificadores de técnica y/o material

También tenemos el modificador de técnica y/o material, que tenía originalmente separados, pero que tiene más sentido juntar.

Es la parte de aquí:

<image input> woundedmuscular Cimmerian warrioron top of a pile of rotten skulls in a gorge, fully covered in blood armed with a sword facing his enemies while laughing with macabre laughter, dramatic lighting, shadows in caravaggio style, character portrait by Nína Tryggvadóttir, captures raw emotions, in the style of emotionally charged scenes, movie still, highly saturated pigments, 8k, gothcore, 32k uhd, disfigured forms, dusan djukaric, andrzej sykut --ar 2:3 --iw 0.75

Dependiendo de lo que estés generando, pues será un modificador de técnica o de material. Por ejemplo, si estás generando ilustraciones, pues será técnica (acuarela, pintura al óleo, etc.). Si estás generando una escultura, pues será material (mármol, barro, bronce, etc.).

En este caso, es “movie still”, que es el mismo que soporte. Aunque quizá he sido muy generoso y también podríamos considerar que no he usado un modificador de este tipo en mi prompt.

Modificadores conceptuales, nominales o temáticos

Por último, tenemos modificadores conceptuales, nominales o temáticos. Es decir, cuando queremos hacer una generación influenciado por un determinado elemento cultural conocido.

Por ejemplo, podrías hacer un prompt como este:

cat as a mage of Harry Potter

Pues “Harry Potter“ sería el modificador. Hasta cierto punto, se puede entender como un modificador de corriente o escuela, pero, tal como yo lo veo, estos modificadores son mucho más amplios y comprenden todo un mundo, y no estrictamente un estilo o corriente y tal.

En el caso de mi prompt, el propio “cimmerian warrior” es temático y, por tanto, ya va a influenciar a la generación (al menos, del sujeto, pero no sólo).

Potenciadores

Y, después de los modificadores de estilo, tenemos los potenciadores. Con ellos, habremos terminado nuestro input textual.

Los potenciadores son conjuntos de tokens (palabras, subpalabras o conjuntos de palabras) que, al usarlos, refinan y mejoran el resultado de la imagen generada por la IA.

Es la parte de aquí:

<image input> woundedmuscular Cimmerian warrioron top of a pile of rotten skulls in a gorge, fully covered in blood armed with a sword facing his enemies while laughing with macabre laughter, dramatic lighting, shadows in caravaggio style, character portrait by Nína Tryggvadóttir, captures raw emotions, in the style of emotionally charged scenes, movie still, highly saturated pigments, 8k, gothcore, 32k uhd, disfigured forms, dusan djukaric, andrzej sykut --ar 2:3 --iw 0.75

Es importante mencionar que, si ves un prompt por ahí con unos determinados potenciadores y tratas de usarlos de forma aislada, es posible que no obtengas los resultados obtenidos.

Como digo, son ciertos conjuntos de tokens los que activan ciertas respuestas en la IA. Cogiendo sólo un par de esos potenciadores quizá te estás cargando el conjunto de tokens que activaba esa respuesta.

Pero la única forma que tienes de comprobarlo es… Probando.

Parámetros

Y, por último, una vez tienes el input textual listo, tienes que poner los parámetros (si la IA te permite usarlos –Dall·E 2 no lo permite– o si es necesario incluirlos en el prompt –en DreamStudio de Stable Diffusion no los incorporamos en el prompt–).

Es la parte de aquí:

<image input> wounded muscular Cimmerian warrior on top of a pile of rotten skulls in a gorge, fully covered in blood armed with a sword facing his enemies while laughing with macabre laughter, dramatic lighting, shadows in caravaggio style, character portrait by Nína Tryggvadóttir, captures raw emotions, in the style of emotionally charged scenes, movie still, highly saturated pigments, 8k, gothcore, 32k uhd, disfigured forms, dusan djukaric, andrzej sykut --ar 2:3 --iw 0.75

Los parámetros tienen sus propios nombres en cada IA, aunque en todas las IAs suele haber parámetros para las mismas cosas.

Eso sí, cómo los parámetros afecten a los resultados sí varía de forma notable de IA a IA, así que conviene aprender a usarlos bien en cada caso.

Y, con esto, terminamos el cómo se construye un buen prompt.


Más de 3000 orangotanes ya reciben mis emails

Suscríbete a la Niusleta de Joseo20.

Yo sí mando spam. Cuando tengo que vender, vendo. El resto de tiempo envío emails con temas que considero interesantes.

Hablo de todo lo que me sale de los cojones, no sólo de marketing o negocios. Hay política, filosofía y otras gilipolleces.

Es probable que después de leerla me odies.

Incluye orangotanes.


Consejos y trucos generales al escribir prompts para IAs de Imágenes

Ahora, veamos algunos consejos y trucos generales para escribir buenos prompts para IAs de Imágenes.

Después, en cada lección concreta para cada IA, verás trucos concretos para cada una de las IAs (aunque algunos se repetirán con los que se ven aquí), pero estos de aquí son válidos para las actuales IAs de Imágenes (bueno, para Dall·E 2 un poco menos, pero para Stable Diffusion y Midjourney, sí).

Trucos sobre el trabajo con IAs Generativas de Imágenes (en general)

Empecemos por algunos trucos que te serán útiles no tanto a la hora de construir prompts, sino a la hora de trabajar en general con IAs Generativas.

Por supuesto, algunos consejos te serán útiles, también, al escribir tus prompts. Pero intento ir un poco más allá y tener una visión más panorámica del asunto.

Venga, dale.

Usa Deepl para traducir tus prompts

Para empezar, los prompts funcionan mejor en inglés.

¿Funcionan sólo en inglés? No necesariamente. Pero te la juegas usando otro idioma. Entiende mucho mejor el inglés y punto. Así que usa el inglés.

Ah, pero es que no sé inglés”. No pasa nada. Es normal. Eres español. Yo también. Así que yo tampoco.

Lo que yo hago es usar Deepl, que es el mejor traductor que conozco (a parte de ChatGPT, no es muchísimo mejor y sí bastante más lento e incómodo).

Eso sí, en su versión gratuita a veces te mete un texto al final del tipo “Traducido con Deepl”. Asegúrate de eliminarlo.

Diferencia exploración de iteración

Segundo consejo: Ten clara la diferencia entre exploración e iteración.

¿A qué me refiero con esto?

Pues que puedes usar estas IAs de esos dos modos.

El primero es el que usas para “dejarte sorprender”, descubrir estilos y posibilidades de la IA en general. Si no tienes curiosidad, vas mal con estas IAs. Porque, aunque los artistas digan que no, estas IAs son, básicamente, una herramienta creativa y artística.

El segundo lo usas cuando quieres cumplir un objetivo concreto con una imagen y, en consecuencia, necesitas algo que cumpla el objetivo. No te sirve cualquier cosa. Es en esta fase donde juegas más con semillas, variaciones del prompt, parámetros, etc.

Distinguir bien estos dos modos te será de gran ayuda.

Determina si necesitas o no imágenes de partida

Es importante que determines si necesitas o no el uso de imágenes de partida, sea por temas de composición o de estilo.

Si no la necesitas, no la uses. Aunque creas que te puede ayudar. Si puedes lograrlo sin imagen de partida, mejor. Así tu generación será menos dependiente de la imagen de partida (y más generalizable en otros casos) y podrás jugar más con el prompt y los parámetros.

No siempre es fácil saber qué quieres

A continuación, te voy a decir que partas siempre de una idea de lo que quieres (salvo que estés en modo pura exploración). Sin embargo, esto es como cuando te dicen “dedícate a lo que te gusta”.

Ya, pero… ¿Cómo averiguo qué es lo que me gusta?

Pues aquí lo mismo.

No siempre es fácil saber qué es lo que quieres.

Lo mejor es que escribas, primero, lo que quieres con texto llano. Con lenguaje natural. Puedes incluso pedir a ChatGPT que te eche una mano.

Y, cuando ya tengas eso claro, trata de traducirlo a un prompt válido para la IA Generativa que estés usando, utilizando lo explicado en este curso.

Parte siempre de una idea de lo que quieres…

Pues eso, parte siempre de una idea de lo que quieres.

Si estás en modo iteración, ten clara la idea de lo que quieres. Sin duda, es mucho mejor que querer algo que cumpla una función y dejar que la IA haga lo que le salga de los huevos.

…Pero sé versátil y acepta el cambio

A pesar de que tienes que tener una idea de lo que quieres, también tienes que ser versátil y aceptar el cambio.

Los humanos somos muy simples. Queremos una imagen para cumplir un objetivo y sólo se nos ocurre una opción. Pero puede haber diez mil.

Si te pones a generar imágenes con una idea en la cabeza, pero la IA acaba generando algo alejado de lo que buscabas, mantente abierto. Quizá es alejado, pero válido para tus propósitos.

Déjate sorprender.

Al fin y al cabo, puedes partir de esa imagen para tratar algo que esté a medio camino entre lo que te ha generado y lo que tú querías.

En definitiva: Mantente abierto al cambio.

El proceso es bastante iterativo

Cuando ves un prompt por ahí en un repositorio (o los que vas a ver en este curso), es fácil pensar que el que lo creó lo escribió del tirón y obtuvo una imagen de puta madre en la primera generación.

Esto CASI NUNCA es así.

El proceso de creación de imágenes con estas IAs es muy iterativo, y necesitas bastantes generaciones aplicando cambios para conseguir los resultados deseados (por eso, necesitas tener suficientes créditos o pagar una suscripción que te permita esas generaciones, porque con las opciones gratuitas estás muy limitado).

Te vas a hartar de repetir, probar y testar

Hazme caso, si quieres aprender a hacer cosas guapas con estas IAs, te vas a hartar de repetir, probar, testar, dar vueltas, equivocarte, corregir y, en definitiva, toquetear y jugar.

No hay otra forma de aprender.

Sí hay otra forma de generar buenas imágenes: Copiando prompts.

Y no está mal hacerlo si no te interesa aprender a dominar estas IAs. Pero, si sí quieres aprender, te toca liarte la manta a la cabeza y juguetear.

La exploración de las IAs generativas de imágenes es ensayo y error personal y colectivo

Al hilo de lo anterior, tienes que tener en cuenta que ni siquiera los desarrolladores que han creado estos modelos y herramientas saben qué ha aprendido o no la IA.

Nadie sabe qué saben estos bichos. Nadie.

Así que la única forma de averiguarlo es jugar con ellas.

Por ello, el llegar a conocer bien estas IAs es un trabajo de ensayo y error personal y colectivo.

Y, precisamente por ello, seguir a gente que juegue con estas IAs y participar en foros y chats te ayudará a tener una mayor comprensión de ellas.

Los pares texto-imagen usan tokens, no palabras

Otro tema que tienes que tener en cuenta: Es fácil pensar que las IAs han aprendido a relacionar conceptos de las imágenes con palabras, pero esto no es exactamente así.

Al igual que pasaba con las IAs de Texto, estas IAs crean sus propios diccionarios de tokens.

Tokens.

Y estos tokens, a veces, serán palabras (a menudo, de hecho), pero no siempre será así.

Los tokens pueden ser sub-palabras o conjuntos de palabras, también.

Es normal.

Si, durante el entrenamiento, se ha encontrado un determinado conjunto de palabras que genera un determinado efecto, pues asumirá ese conjunto de palabras como token. Por ejemplo, “Harry Potter”, probablemente sea un token único en el mapa semántico latente de estas IAs.

Del mismo modo, si, durante el entrenamiento, se ha encontrado una subpalabra muy frecuente, puede haberla considerado un token. Por ejemplo, “-punk” o “-core”, probablemente sean tokens únicos en el mapa semántico latente de estas IAs.

Usa subpalabras para crear estilos

Debido a lo anterior, ciertas subpalabras pueden utilizarse para crear nuevos elementos (generalmente, estilos).

Por ejemplo, “rainbowpunk” genera cosas interesantes:

rainbowpunk

Y ese término seguro que no es un token que tenga en su mapa latente semántico. Sin embargo, sabe que -punk tiene ciertas características y sabe lo que es un arco iris, así que puede hacer la mezcla.

Y no sólo eso: También entiende que, al juntar los términos, debe “crear un estilo”, porque, cuando se ha encontrado -punk con un prefijo, ha visto que, sistemáticamente, era un estilo.

Por eso, cuando pones “rainbowpunk” no obtienes lo mismo que si pones “rainbow punk” (que te genera una punk con el pelo de colores, sin elementos propios de los estilos artísticos -punk).

rainbow punk

Piensa en los sesgos al escribir tus prompts

Por otro lado, debes pensar en los sesgos que puede haber en los datos de entrenamiento y cómo afectan a la generación de imágenes.

Piensa que estamos hablando de información scrapeada. Información creada por humanos. Por tanto, estas IAs tienen los mismos sesgos que tienen los humanos.

En consecuencia, tus generaciones pueden verse afectadas.

En general, cuando generes imágenes sin especificar razas, obtendrás más blancos que negros o asiáticos.

Tenlo presente. Si no estás obteniendo el resultado deseado en un prompt, piensa en los sesgos que pueden estar afectando y corrige aquello que está infra o sobrerrepresentando.

Piensa en cómo los artistas etiquetan sus imágenes

De nuevo, esta información está scrapeada de internet.

¿De dónde, exactamente?

Pues no lo sabemos, pero es razonable pensar que de webs en las que aparecen imágenes con una etiqueta ALT descriptiva.

También es posible que se hayan scrapeado webs de artistas y se hayan asociado las imágenes con las categorías y etiquetas que se le adjudicaran a esas imágenes.

En este sentido, cuanto más entiendas cómo funcionan esas webs de artistas y más pienses en cómo los artistas pueden etiquetar sus imágenes, más fácil te resultará entender qué tokens ha podido aprender la IA.

En consecuencia, métete más en entornos artísticos. Esa exploración y aprendizaje tácito te permitirá crear mejores prompts.

Piensa en qué crean más los artistas

Por otro lado, no tienes que pensar sólo en cómo los artistas etiquetan e identifican sus creaciones, sino también qué es lo que crean más.

Te pongo un ejemplo sencillo: Quieres crear un soldado espartano.

¿Quieres un soldado espartano como los que aparecen en las ánforas griegas o quieres uno como en la peli de 300?

Pues tendrás que usar el término “300” en tu prompt.

Pero, mejor aún, podrías usar el término “Leónidas”, porque, muy probablemente, hay muchos más artistas que han creado “Leónidas” que “soldado espartano” en abstracto.

Y Leónidas incluye los atributos que buscas en un soldado espartano.

Así que es la mejor opción no sólo porque sintetiza muy bien los elementos de un soldado espartano y un estilo concreto, sino porque el resultado será mejor, porque la IA habrá visto más ejemplos en su entrenamiento. Y, para redondear, ocupa menos espacio en el prompt.

Cuando tengas lo que quieres, usa la semilla para iterar

Una vez tengas una primera generación que te guste, lo mejor es tomar su semilla e iterar. Siempre se puede perfeccionar una generación.

Además, si estás iterando para aprender, utilizar una semilla es lo mejor que puedes hacer, porque sabrás que los cambios en la imagen sólo se están produciendo por los cambios en tu prompt o en los parámetros.

Por tanto, puedes aprender mucho más, porque tienes la posibilidad de ver cómo cada término afecta al resultado.

Cuidado con el Seed Overfitting

Ahora, tienes que tener cuidado con lo que he llamado “Seed Overfitting”.

Entiendo por “Seed Overfitting” el hecho de trabajar sobre una semilla concreta y darle tantas vueltas que, al final, tienes un prompt que genera algo muy guapo… Pero sólo con esa semilla concreta.

Esto está bien si quieres usar la imagen para un único uso.

Sin embargo, si quieres un prompt que se pueda utilizar en múltiples casos y generar cosas guapas y diferentes constantemente, necesitas que no dependa de una semilla concreta.

Por tanto, incluso aunque estés iterando con una semilla, una vez termina, comprueba si genera buenos resultados con una semilla aleatorias. Si no es así, trata de optimizar ese mismo prompt para corregir ese problema.

Cuidado con el Image Overfitting

Similar a lo anterior, pero aún más obvio: Si utilizas una Imagen de Partida y le creas un prompt guapo (sea del tirón o iterando), tu prompt no será muy útil de forma aislada.

La calidad de esas imágenes será muy dependiente de la imagen, por lo que no tiene sentido que compartas ese prompt sin especificar la imagen de partida que utilizaste, porque nadie va a poder replicar tus resultados sin ella.

Hazte con un buen repositorio de modificadores y potenciadores

Seamos honestos: No tenemos ni puta idea de arte. Ni tú ni yo.

Y, aunque tú sí la tengas, es prácticamente imposible que hayas llegado a conocer todos los tokens que conoce una IA.

Por tanto, lo mejor que puedes hacer es crearte un buen repositorio de modificadores y potenciadores.

Para ello, al final de este módulo, te propongo varios recursos.

Si quieres trabajar en serio en este campo, créate una base de datos propia donde tengas bien organizados tantos tokens como sea posible para tus generaciones.

Estos tokens los obtendrás de bases de datos ya existentes (te muestro algunas en los recursos), repositorios de prompts (también de muestro algunos en los recursos) y explorando por tu cuenta.

Consulta los repositorios de prompts

Tanto para completar tu base de datos de tokens como para obtener ideas e inspirarte, visitar repositorios de prompts periódicamente es una gran idea.

Practica y roba conscientemente

Si quieres aprender a crear buenas imágenes con IAs Generativas de Imágenes, vas a tener que practicar constantemente.

Sin embargo, con eso puede no ser suficiente, porque vas a estar reinventando la rueda una y otra vez.

No tengas miedo, por tanto, de ir y robar prompts. Sin miedo.

Eso sí, hazlo conscientemente. Trata de entender por qué algo funciona y algo no y actualiza tu base de datos en consecuencia.


Más de 3000 orangotanes ya reciben mis emails

Suscríbete a la Niusleta de Joseo20.

Yo sí mando spam. Cuando tengo que vender, vendo. El resto de tiempo envío emails con temas que considero interesantes.

Hablo de todo lo que me sale de los cojones, no sólo de marketing o negocios. Hay política, filosofía y otras gilipolleces.

Es probable que después de leerla me odies.

Incluye orangotanes.


Trucos sobre el Prompt Engineering en IAs Generativas de Imágenes

Ahora, echemos un vistazo a trucos concretos de Prompt Engineering aplicado a IAs Generativas de Imágenes:

Recuerda que la IA no entiende el lenguaje natural

Esto es lo más importante. Aunque algunas IAs más o menos comprendan un poco mejor el lenguaje natural, como la última versión de Midjourney, lo cierto es que aún está muy lejos de entender bien el lenguaje natural y sus sutilezas.

Por tanto, trata de optimizar tus prompts para que las IAs entiendan lo que quieres decir.

Usa preposiciones largas o verbos para relacionar cosas

Ya has visto los problemas que tienen las IAs con temas de composición y distribución espacial, como “arriba”, “abajo” o lo que sea.

Una forma de apañar este problema es usando palabras más largas y dando vueltas alrededor del tema.

Por ejemplo, si quieres que algo aparezca encima de otra cosa, mejor que “on” es “on top of”. Si no consigues que una chica aparezca con un vestido concreto, cambia “in dress” por “wearing dress”.

Con este tipo de juegos puedes conseguir mejores resultados.

No uses negaciones

Como digo, estas IAs no pillan el lenguaje natural, así que las negaciones no las llevan bien.

Es por eso que existen prompts negativos: Es mucho más fácil pasárselo por separado, como parámetro, que intentar que entienda qué parte del prompt es afirmativa y cuál no.

Así que, si quieres que ciertas cosas no aparezcan en tu prompt, usa negative prompts en cualquiera de sus formulaciones.

Piensa en cómo buscarían tu imagen en Google

Como heurística simple para crear la base de tu prompt, puedes pensar en cómo buscaría la gente la imagen que estás queriendo crear y que tienes en tu cabeza.

¿Cómo deberían buscarla si Google sólo arrojase una única imagen por cada búsqueda?

Ese es un buen punto de partida para tu prompt.

Las palabras genéricas y vagas funcionan mal

Lo más importante es ser específico y detallado en el prompt, así que tirar de palabras vagas y genéricas no es lo que debes hacer, sino todo lo contrario.

Por ejemplo, palabras como “beautiful” no son las mejores, porque puede haber cien mil cosas diferentes etiquetadas como “beautiful” en internet y a saber lo que ha aprendido la IA durante su entrenamiento para esa palabra.

Es mejor tirar por términos más concretos y referidos específicamente a lo que estás tratando de conseguir.

Cuidado con los plurales vagos

En general, utilizar plurales vagos es una mala cosa, salvo que quieras conseguir una multiplicidad de elementos.

Si lo que quieres es tener dos gatos en una imagen, pon dos gatos, no pongas “gatos”.

Aun así, a veces, la IA hará lo que quiera. Pero hará mucho más lo que quiera si pones un plural vago que no especifica el número de elementos que quieres.

El orden del prompt es importante

En todas las IA Generativas que tenemos actualmente en el mercado, los primeros tokens que aparecen en el prompt tienen más peso que los últimos.

En general, el orden que te he dado de los prompts funciona bien incluso en prompts largos, porque estos modelos están muy sesgados hacia estilos (es lógico, hay más variedad de elementos que pueden aparecer en una imagen que de estilos) y, en consecuencia, poner los estilos y los potenciadores al final, se ve compensado.

Pero, más allá de eso, ten presente eso: Lo que aparece más al principio, pesa más.

Repite palabras para otorgarles peso

Si algo de tu prompt no aparece en una generación, una buena forma de resolverlo es repitiendo la palabra un par de veces.

Tan simple como eso.

Usa sinónimos para conseguir lo que quieres

Otra opción si sigues sin conseguir que aparezca lo que quieres es utilizar sinónimos. Quizá la palabra que estás usando no está muy claro en el mapa latente semántico de la IA, pero otra que es casi idéntica conceptualmente sí está presente.

Prueba.

Lo que pasará al hacerlo es que sobrecargarás a la IA con lo que buscas (como si repitieras una palabra), por lo que le dará más peso. Y, además, quizá suceda eso que comento y actives algún token (aunque no sea el más frecuente en lenguaje natural) que sí está bien representado en el mapa semántico y generes lo que buscas.

Si el estilo de tu prompt no aparece, descríbelo

En cuanto a estilos, puede que no consigas que la imagen tenga el estilo que le estás pidiendo.

En este caso, puedes repetir el texto, pero también puedes optar por utilizar una descripción del estilo.

Puedes usar ChatGPT para que te diga los elementos más representativos de un determinado estilo y pasárselo a Midjourney o la IA que estés usando junto al nombre del estilo que buscas reproducir.

Haz buen uso de los Prompt Weights

Tanto Stable Diffusion como Midjourney (Dall·E 2, no) ofrecen la opción de utilizar Prompt Weights. Es decir, atribuir diferentes pesos a diferentes partes del prompt.

No es bueno abusar de ello dividiendo en muchas partes el prompt, pero hacer una o dos divisiones puede ayudarte a jugar bien con el prompt y aplicar más peso a algunas partes.

Formas de dar peso a un elemento

En resumen, si algo que has puesto en tu prompt no está apareciendo en la imagen generada, tienes las siguientes formas de tratar de darle más peso para forzar a la IA a que lo muestre:

  1. Pon lo que no aparece al principio del prompt (si es posible)
  2. Repite la palabra que no aparece
  3. Utiliza sinónimos de dicho término
  4. Parafrasea o describe el elemento o estilo que no está apareciendo
  5. Juega con los Prompt Weights

Cuanto más específico sea lo que quieres, palabras más relevantes tendrás que usar

En general, cuanto más específico sea lo que quieres conseguir, más relevantes deberían ser las palabras que uses.

¡Cuidado!

Uso el término “relevante”. Y no es casual.

Si quieres un tío grande, fuerte, armado, guerrero y blanco, no te líes y pon “vikingo”. Si luego quieres quitar atributos ya lo harás con prompt negativo.

Tienes que usar palabras con peso y relevancia.

Sintetiza y concretiza

Para añadir relevancia a tus palabras, deberías sintetizar y concretizar.

Por ejemplo, si quieres un hombre con traje, di “empresario”. Si quieres un hombre con una espada, pon “espadachín”. Y así con todo.

Si no, puedes acabar generando un vendedor de trajes o de espadas, por decir algo.

Por supuesto, a veces la cosa no va bien aplicando esta heurística, porque puede ser que esos términos condensen más elementos que no te interesen. Pero esto ya es cuestión de ir jugando para ver cuándo sí funciona y cuando no (además, siempre puedes usar prompts negativos).

En general, hay términos que, en sí mismos, agrupan y condensan muchos otros. A menudo, usar estos términos es mejor idea que elementos sueltos de los que están condensados dentro de ese término de gran relevancia.

Y esto aplica no sólo a sujetos o entornos, sino que también se aplica a los estilos. Por ejemplo, “action photography” incluye muchas otras características estilísticas. 

En definitiva: Sintetiza, concreta y llega a términos relevantes de gran peso semántico.

No tengas miedo de ser tan descriptivo como quieras

Ahora bien, siempre y cuando uses palabras con peso y relevancia, no tienes que tener miedo de ser descriptivo en lo que quieres conseguir.

A menudo, la IA no te hará ni caso, pero tú debes intentar forzarle a que sí lo haga.

Haz grandes descripciones con palabras relevantes.

Los sustantivos claros y los adjetivos superlativos

A la hora de usar términos relevantes, lo que he dicho sirve para los sustantivos (usa sustantivos con una gran carga semántica siempre que sea posible), pero no para los adjetivos.

Bueno, a veces sí, hay adjetivos que son más concretos que otros y tienen una mayor relevancia en determinados contextos, como “cute” frente a “beautiful”, por ejemplo.

Pero, en general, lo que va bien con los adjetivos es usar superlativos. En vez de “big” pon “colosal” o “giantic” o mierdas así.

Conseguirás resultados más potentes.

No metas términos si no son necesarios

Hay veces que, como nosotros sabemos qué es lo que hay dentro de una imagen, queremos transmitírselo tal cual a la IA.

Y, aunque puede funcionar en muchos casos, en otros no es así.

Te pongo un ejemplo: Imagina que quieres hacer una imagen de un nigromante haciendo un ritual para reanimar un esqueleto.

Es razonable pensar que el mejor prompt para ello es “necromancer performing a ritual to reanimate a skeleton”, pero ese prompt te llevará a imágenes de un nigromante que es en sí mismo un esqueleto.

Y, ojo, que estará haciendo un ritual. Pero no es lo que buscas.

En lugar de eso, ¿por qué no poner “necromancer performing a ritual on a grave”?

Así tendrás un nigromante haciendo un ritual sobre una tumba, que, a todas luces, cuando una persona lo vea, pensará que está reanimando un muerto.

Si quieres añadir detalle, pues pon en el prompt que de la tumba sale una mano esquelética.

La cuestión es que detallar “lo que va a pasar” pero aún no está pasando no es buena idea. Detalla lo que está pasando, lo que se ve en la imagen. El esqueleto no se ve en una imagen de un nigromante reanimando un esqueleto (si lo imaginamos en una tumba), así que el esqueleto no tiene lugar en el prompt.

Espero haberme explicado bien.

No tengas miedo de usar potenciadores

Hay por ahí artistas que dicen “es que usar IAs Generativas no es arte porque esos potenciadores se cogen random porque funcionan y no significan nada”.

A nosotros nos la suda eso.

Que lloren.

Los potenciadores mejoran los resultados, así que úsalos. Sin miedo.

Si tú pintases una obra, tratarías de ir directamente a la buena calidad. La IA necesita esos potenciadores para dar el 100%. Pues se usan y punto.

De hecho, en el futuro, probablemente estén integrados de algún modo en el propio prompt, de forma que siempre se aplique ese extra de calidad.

No empieces a mezclar modificadores a lo loco

Es tentador empezar a usar un montón de modificadores pensando que vas a obtener un poco de todos ellos, pero no es una buena idea.

Al hacerlo, tendrás unos efectos imprevistos que quizá no te gusten. Y no podrás controlarlo, porque tendrás demasiados elementos en el prompt.

Es mejor empezar con poco e ir aumentando que empezar con mucho e ir reduciendo. Tienes mayor control y puedes ver mejor cómo cada elemento del prompt.

El orden del input textual puede variar

Aunque el orden del input textual que te he dado antes es el que, generalmente, mejor funciona, lo cierto es que, a veces, no es así.

Sobre todo, para el término más genérico (photo of, oil paint of, illustration of, etc) puede funcionar bien ponerlo al principio.

No obstante, en esto, como en todo, haz pruebas.

Los emojis funcionan (y ocupan poco espacio)

Los emojis se tratan en forma de token único y pueden tener efectos potentes. Por ejemplo, si pones el emoji de una pareja, es probable que generes parejas.

Puedes usar emojis para conseguir lo que ese emoji representa y, con ello, ocupar menos espacio en el prompt. Digamos que es una forma de atribuir más relevancia a un término.

No obstante, CLIP entiende (al menos en parte) los emojis en base a las palabras que lo rodean, por eso el emoji del melocotón está baneado, porque es un culete.


Más de 3000 orangotanes ya reciben mis emails

Suscríbete a la Niusleta de Joseo20.

Yo sí mando spam. Cuando tengo que vender, vendo. El resto de tiempo envío emails con temas que considero interesantes.

Hablo de todo lo que me sale de los cojones, no sólo de marketing o negocios. Hay política, filosofía y otras gilipolleces.

Es probable que después de leerla me odies.

Incluye orangotanes.


Deja un comentario