Con más de 15 millones de usuarios en su canal de Discord, Midjourney es uno de los modelos de IA más populares para generar imágenes. Como en el caso de DALL-E y Stable Diffusion, funciona a base de entradas de texto. La calidad de las imágenes depende de la exactitud de estos prompts, que, gracias a ChatGPT, pueden ajustarse a las características de Midjourney.
No importa que ChatGPT no conozca este generador de imágenes (se lanzó en 2022, y supuestamente solo tiene acceso a información hasta 2021). Conociendo cómo funciona Midjourney, podemos pedirle a la IA de OpenAI que genere indicaciones precisas para crear verdaderas obras de arte.
Conectando ChatGPT y Midjourney
Lo mejor de ChatGPT es que puede entrenarse para optimizar su desempeño, así como el uso de otras herramientas, tales como Midjourney. El modelo de David Holz es una IA que dibuja a través de una red neuronal que el chatbot de OpenAI puede complementar perfectamente. Al fin y al cabo, ChatGPT es una máquina de generar texto, incluyendo prompts.
Una vez que el modelo asimila los procesos propios de la generación de imagen vía texto, es fácil obtener prompts eficaces.
De esta forma, para “conectar” ambas inteligencias artificiales, el primer paso es entrenar a ChatGPT. El proceso puede requerir muchas pruebas, así que, para esta guía, usaremos la versión GPT4 y un plan de pago de Midjourney.
¿Cómo crear un prompt para Midjourney con ChatGPT?
Seguiremos cuatro pasos básicos. Como hemos comentado, primero procederemos al entrenamiento del modelo. Luego, le pediremos a ChatGPT que comparta algunos prompts, los cuales modificaremos para generar los prompts definitivos.
Entrenamiento de ChatGPT
Hay muchas formas de entrenar a ChatGPT. En esta guía, te mostraremos cómo hemos enseñado al modelo de OpenAI a crear arte con Midjourney.
El primer prompt es muy importante. En la siguiente imagen, se muestra la primera indicación que ofrecimos a ChatGPT, que respondió afirmativamente.
La primera entrada de texto es crucial porque determinará el resto del proceso y, finalmente, el resultado del entrenamiento.
Conocer el funcionamiento de Midjourney, con sus parámetros y estilos, es fundamental. Estudiar algunos prompts exitosos es altamente recomendable, como este prompt disponible en Reddit:
Portrait of Indian village woman at a gathering in the forests of Himachal Pradesh, Cinematic, Photoshoot, Shot on 25mm lens, Depth of Field, Tilt Blur, Shutter Speed 1/1000, F/22, White Balance, 32k, Super-Resolution, Pro Photo RGB, Half rear Lighting, Backlight, Dramatic Lighting, Incandescent, Soft Lighting, Volumetric, Conte-Jour, Global Illumination, Screen Space Global Illumination, Scattering, Shadows, Rough, Shimmering, Lumen Reflections, Screen Space Reflections, Diffraction Grading, Chromatic Aberration, GB Displacement, Scan Lines, Ambient Occlusion, Anti-Aliasing, FKAA, TXAA, RTX, SSAO, OpenGL-Shader’s, Post Processing, Post-Production, Cell Shading, Tone Mapping, CGI, VFX, SFX, insanely detailed and intricate, hyper maximalist, elegant, dynamic pose, photography, volumetric, ultra-detailed, intricate details, super detailed, ambient –uplight –v 4 –q 2
Respuestas de ChatGPT
Puedes revisar la versión original del prompt en el post de Reddit, cuyo resultado fue la imagen anterior. ChatGPT respondió resumiéndolo con los conceptos básicos utilizados para generar la imagen.
A continuación, alimentamos al modelo con prompts disponibles en la cuenta de Twitter de Linus, usuario especializado en el entrenamiento de inteligencias artificiales.
En el canal de Discord de Midjourney, encontrarás otros ejemplos útiles para la creación de prompts, ya sea para generar arte directamente o para entrenar a ChatGPT.
Fórmula general
Aunque buscar prompts es divertido, se puede ahorrar tiempo aplicando una fórmula general para optimizar el entrenamiento:
(Tema), (5 palabras clave descriptivas), (Estilo artístico), (Iluminación y atmósfera), (Detalles de la cámara), (Características del carrete), (Efectos especiales), –ar (Ratio) –s (Resolución) –q (Calidad)
Tras solicitar a ChatGPT que estudiara la fórmula, nos dio una idea general de cada variable. Esta parte del entrenamiento es de gran ayuda en la generación de imágenes con un grado de consistencia aceptable, ideal si quieres generar múltiples imágenes relacionadas (por ejemplo, en la creación de personajes de una novela gráfica).
Explicando los sufijos
Los prompts de Midjourney suelen tener muchos sufijos que facilitan la conversión de texto en imagen. Como parte del entrenamiento, ChatGPT debe entender qué significan estos sufijos:
- Sufijos básicos:
- –ar: Se usa para indicar el tamaño de la imagen en función del tipo de imagen: 16:10 (para un wallpaper) o 3:2 (para un retrato).
- –s: Usado para determinar la expresividad de la imagen. La versión 5 de Midjourney ofrece una horquilla de 0 a 1000.
- –q: Se vincula al tiempo de renderización, afectando a la calidad de la imagen. Para obtener el mayor grado de calidad, aplica “-q 5”.
- –h: Se utiliza para fijar el ancho y el alto de la imagen. Los valores se mueven entre 256 y 2034, siendo la resolución máxima de 3 megas.
- –hd: Se trata de un sufijo que no funciona en la última versión de Midjourney. En versiones anteriores, se usa para imágenes grandes.
- –beta: Es un sufijo utilizado como algoritmo experimental. Solo admite dos generaciones.
- Sufijos adicionales:
- –test: Modo para imágenes artísticas.
- –testp: Modo realista para niveles -s entre 1250 y 5000. No funciona con -q.
- –seed: Utilizado para generar prompts nuevos manteniendo los renders de uno anterior.
- –sameseed: Permite mantener la variedad de imágenes.
- –no: Sufijo usado para indicar qué aspectos no queremos que se tengan en cuenta en la generación de las imágenes.
- –iw: Cuando se usa una imagen adicional, este sufijo indica al modelo que la imagen renderizada debe ser similar a la imagen de partida.
- –v: Identifica la versión de Midjourney usada.
- –uplight : Añade efectos de iluminación.
Estos sufijos se ofrecieron a ChatGPT durante el entrenamiento, que los procesó respondiendo afirmativamente. En tu entrenamiento, puedes añadir otros sufijos disponibles en la lista de comandos de Midjourney, que puedes copiar y pegar directamente.
Efectos adicionales de iluminación
Hay multitud de opciones para aplicar efectos de iluminación. Midjourney admite un amplio abanico de variables:
- Backlight.
- Bokeh.
- HDR.
- Escala de grises.
- Vignette.
- Contraste.
- Saturación.
- Sharpen.
- Ruido.
- Lensflare.
Tipo de imagen
En cuanto al estilo (presente en la fórmula general), se puede entrenar a ChatGPT con una amplia lista de tipos de imagen:
- Póster: Imágenes para ilustraciones o novelas gráficas.
- Clásico: Algunas de las palabras clave utilizadas son “óleo sobre lienzo”, “renacentista”, “Cubismo”, “surrealista”, etc. Se puede incluso especificar un artista dentro de un estilo concreto, como Da Vinci o Van Gogh.
- Abstracto: Puedes sugerir estructuras de colores y formas usando palabras clave como “minimalista” o “geométrico”.
- Fotorrealismo: Puede usarse la palabra “fotorrealista” o algunos conceptos relacionados con el ángulo o la exposición. Indicar el tipo de cámara también es de gran utilidad.
- Fantástico: Algunas palabras muy populares en los prompts de imágenes fantásticas son “sci-fi” y “steampunk”.
- Paisajes: Midjourney admite conceptos como “naturaleza”, “amanecer”, “atardecer”, etc.
- Productos: Se pueden utilizar palabras relacionadas con comida, joyería, coches, etc.
- Retratos: Se trata de un tipo de imagen con amplio espectro de palabras clave y temas: moda, urbano, cuerpo completo, primer plano, etc.
ChatGPT ahora incluye un plugin llamado Photorealistic para generar imágenes realistas y obras de arte. Puedes alimentar el modelo perfeccionar los prompts generados para pegarlos en Midjourney.
Más tipos de imágenes
Générateurs d’image IA
Chain GPT
Générateur d’images IAPicsart
Générateur et éditeur d’images IAAdemás de los tipos ya mencionados, puedes usar Midjourney u otros modelos (como ChainGPT, Lensa AI o DALL-E-2) añadiendo las siguientes palabras clave a tus prompts:
- Arquitectura: HDR, urbano, histórico, etc.
- Manga: kawaii, estilo japonés, anime, manga, Naruto, etc.
- Pixel-Art: 16-bit, 8-bit, retro, Super Mario, Minecraft, etc.
- Dibujos animados: cartoon, fantasía, Quentin Blake, etc.
- Arte urbano: street art, mural, graffiti, Banksy, etc.
- Surrealismo: fantástico, onírico, Dalí, etc.
Estos son algunos ejemplos. Puedes compartir con ChatGPT todas las ideas que se te ocurran, ampliando su comprensión de estilos artísticos. Comprueba siempre cuál es la respuesta del modelo, que debe ser afirmativa, tal y como se muestra en la siguiente captura de pantalla durante nuestro entrenamiento.
Nuestro ejemplo: un retrato
Antes de pedirle a ChatGPT que generara prompts, probamos algunos trucos para generar imágenes fotorrealistas. El siguiente prompt tuvo buenos resultados en Midjourney:
A portrait of a rugged sailor at sea, weather-beaten face, staring into the distance. Classic film grain effect, shot on Leica M lens, Depth of Field, DOF, Shutter Speed 1/500, F/5.6, White Balance, 32k, film grain, 4K. –ar 9:16 –s 600 –quality 5.
El prompt sigue la fórmula propuesta al comienzo de la guía, basada en parte en el prompt de Reddit puesto como ejemplo. Se incluyen términos como “granulado” para darle un toque realista a la imagen.
Lo interesante del entrenamiento, es que se pueden sugerir más efectos basándose en los existentes. Por ejemplo, le pedimos a ChatGPT que incluyera términos similares al granulado en sus prompts.
Generando prompts con ChatGPT
Ya hemos enseñado a ChatGPT lo que necesita saber sobre estilos, efectos de iluminación y sufijos. Es momento de comprobar qué puede hacer con esa información. Probamos con el siguiente prompt, lanzado con unas indicaciones generales:
Freddie Mercury on stage at a concert, taking a selfie with thousands of ecstatic fans in the background, dynamic pose, charismatic expression, vibrant stage lights reflecting off his aviator sunglasses, shot on Canon EOS 5D, 50mm lens, Depth of Field, Shutter Speed 1/200, F/1.8, White Balance 5500k, Stage Lighting, Backlight, Dramatic Lighting, Concert lights, Photo-realistic, detailed audience, clear foreground, film grain effect, 4K –ar 16:9 –s 500 –quality 5.
Corrigiendo los prompts
El prompt de ChatGPT tuvo unos resultados aceptables, pero no perfectos. Por ejemplo, faltaban las gafas de aviador. En general, el aspecto era muy típico de las imágenes generadas por IA.
Le propusimos algunas correcciones a ChatGPT y el prompt que nos facilitó funcionó excelentemente. El resultado demuestra que el modelo puede avanzar aprendiendo de sus errores, ofreciendo mejores resultados en la generación de prompts.
Preguntando a ChatGPT
Usado como generador de prompts para midjourney ChatGPT puede ayudar en el entrenamiento del modelo. Es posible preguntarle qué variables conocidas se relacionan con un prompt dado. Probamos con una entrada de texto muy detallada. ChatGPT entendió correctamente todo. Incluso criticó la extensión del prompt:
Female Viking warrior, age 24, wheatish in complexion, traditional Viking dress, ferocious look, standing in the middle of a war, sweaty face, strong jawline, in Portrait Lighting, Shot on 70mm lens, Depth of Field, DOF, Tilt Blur, Shutter Speed 1/ 1000, F/ 22, White Balance, 32k, Super – Resolution, Megapixel, ProPhoto RGB, VR, Lonely, Good, Massive, Halfrear Lighting, Backlight, Natural Lighting, Incandescent, Optical Fiber, Moody Lighting, Cinematic Lighting, Studio Lighting, Soft Lighting, Volumetric, Contre – Jour, Beautiful Lighting, Accent Lighting, Global Illumination, Screen Space Global Illumination, Ray Tracing Global Illumination, Optics, Scattering, Glowing, Shadows, Rough, Shimmering, Ray Tracing Reflections, Lumen Reflections, Screen Space Reflections, Diffraction Grading, Chromatic Aberration, GB Displacement, Scan Lines, Ray Traced, Ray Tracing Ambient Occlusion, Anti – Aliasing, FKAA, TXAA, RTX, SSAO, Shaders, OpenGL – Shaders, GLSL – Shaders, Post Processing, Post – Production, Cel Shading, Tone Mapping, CGI, VFX, SFX, insanely detailed and intricate, hypermaximalist, elegant, hyper realistic, super detailed, dynamic pose, photography, 64k –ar 9:16 –v 5.1 –q 5 –s 1000 –q 2 –v 5 –s 750 –q 2 –v 5 –s 750 –q 2 –v 5 –s 750 –v 5 –s 250 –v 5.1 –v 5 –s 250
Ya que nuestro prompt no le gustó, le pedimos que generara uno alternativo, y lo hizo bastante bien, creando una imagen de gran calidad:
Female Viking warrior, age 24, in traditional dress, standing amidst a battlefield, strong and fierce. Shot in portrait style with depth of field effect, tilt blur, and a shutter speed of 1/1000, F/22. Pay special attention to the lighting, which should be a mix of natural and moody cinematic lighting, creating shadows and contrasts on her face. Aim for a hyper-realistic, super-detailed image. –ar 9:16 –s 750 –q 2 –v 5
Además de mejorar el prompt propuesto, ChatGPT realizó algunos comentarios interesantes sobre el uso de algunos efectos de renderización, demostrando de nuevo la capacidad de aprendizaje del modelo.
Comprobando la calidad de los prompts
Veamos algunos ejemplos de prompts generados con ChatGPT tras el entrenamiento. Le pedimos que retratara a Vitalik Buterin en diferentes contextos. Estos fueron los resultados.
Prompt 1: Bellas Artes: Buterin pintando
Vitalik Buterin in an art studio, focused on painting a whimsical children’s cartoon on a large canvas, palette in hand. Rendered in a Van Gogh-like impressionist style with bold brush strokes and vibrant colors. –ar 16:10 –s 700 –q 5
Prompt 2: Anime/manga: Buterin como un samurái
Vitalik Buterin portrayed as a noble samurai in a serene Japanese garden during cherry blossom season, styled in a detailed Studio Ghibli anime art style. Wearing traditional samurai attire and holding a katana, embodying the spirit of a warrior. –ar 16:10 –s 700 –q 5
Prompt 3: Cómic: Buterin como un superhéroe
Vitalik Buterin in a dynamic pose as a cyber superhero, in a futuristic cityscape, fighting off malicious hackers. Rendered in a vivid Marvel comic book style with dramatic lighting, strong line work, and high contrast. –ar 16:10 –s 700 –q 5
Prompt 4: Abstracto: Buterin en la Blockchain
Vitalik Buterin in a surreal, geometric landscape that symbolizes the blockchain world, with ether-like energy swirling around him. Rendered in an abstract, minimalist art style, with a strong focus on geometric shapes and a cool color palette. –ar 16:10 –s 700 –q 5
Prompt 5: Fotorrealismo: Buterin como astronauta
Vitalik Buterin dressed as an astronaut, floating in space with the Earth. Shot on Canon EOS R5, 50mm lens, Depth of Field, Shutter Speed 1/1000, F/2.8, White Balance, 6000k. High Resolution, realistic details, HDR effect, Film grain, 4K. –ar 16:10 –s 700 –q 5
Imágenes de animales
También le pedimos prompts para generar imágenes de animales. Comenzamos con un prompt de leones con un estilo similar al de National Geographic. Nos ofreció una entrada de texto para Midjourney que arrojó una imagen muy realista:
Close-up of a majestic lion in the African savannah, mane blowing in the wind, a pride of lions resting in the backdrop, shot during golden hour. Shot on a Canon EOS-1D X Mark III, 600mm f/4 lens, Shutter Speed 1/2000, F/6.3, ISO 800, Depth of Field, with a touch of film grain to add a classic documentary feel. The sun setting in the background, creating an atmospheric backlighting effect on the lion. –ar 16:9 –s 100 –q 5
Imágenes de paisajes
Vista la pericia con imágenes de personas y animales, quisimos comprobar si se le darían bien los paisajes. Le pedimos a ChatGPT un wallpaper con praderas verdes y aguas azules, dejando el estilo a su elección:
Panoramic landscape of rolling green hills meeting clear blue waters under a bright, sunny sky. Nature’s harmony with lush grass, sparkling water reflecting the sunlight, and a touch of cloud brushed sky. Not a single sign of human intervention, notably no buildings, roads, or plants other than natural flora. Painted in the style of the Romantic era to emphasize the sublime beauty of nature, with soft, diffused light for an ethereal effect. –no plants –ar 16:10 –s 500 –q 5
El resultado mejoró cuando le solicitamos que resumiera el prompt, eliminado texto innecesario y dando prioridad a la calidad:
Green hills meet clear blue waters, sunny sky. Painted in Romantic style, ethereal light. No human elements. –no plants –ar 16:10 –s 500 –q 5
Descubrimos que la calidad del resultado final no depende de la extensión del prompt. Más información no implica más calidad. De hecho, el exceso de datos puede entorpecer la generación exitosa de imágenes.
Este fue el resultado para un prompt sobre la Gran Pirámide de Giza:
The Great Pyramid of Giza at sunrise, captured from a low angle, golden light caressing ancient architecture, shadows stretching. Shot on a Nikon D850, Focal Length 24mm, Aperture f/11, Shutter Speed 1/100 sec, ISO 100, photorealistic style. –ar 16:10 –s 500 –q 5
Otras formas de generar prompts para Midjourney
Aunque ChatGPT es una de las herramientas más populares para generar texto, y ha demostrado tener un enorme potencial para crear prompts, la versión gratuita puede estar limitada. Existen formas alternativas para generar imágenes de calidad en Midjourney (u otros modelos alternativos), algunas gratuitas.
Si el entrenamiento de modelos de IA te resulta complejo, los buscadores especializados (como Lexica) o generalistas (como Google) son fuentes excelentes donde encontrarás una cantidad ingente de prompts. Si solo te preocupan los planes de pago, siempre puedes probar a entrenar ChatGPT basándote en las características de generadores de arte open-source, tales como Stable Diffusion.
Preguntas frecuentes
¿Cómo generar prompts efectivos para Midjourney?
¿Qué son los prompts múltiples en Midjourney?
¿Se puede usar ChatGPT para generar imágenes?
Descargo de responsabilidad
Descargo de responsabilidad: De acuerdo con las pautas de Trust Project, el contenido educativo de este sitio web se ofrece de buena fe y solo con fines de información general. BeInCrypto prioriza proporcionar información de alta calidad, tomándose el tiempo para investigar y crear contenido informativo para los lectores. Si bien los socios pueden recompensar a la empresa con comisiones por las ubicaciones en los artículos, estas comisiones no influyen en el proceso de creación de contenido imparcial, honesto y útil. Cualquier acción tomada por el lector en base a esta información es estrictamente bajo su propio riesgo.