Comparación: ¿Nano Banana arrasa con la competencia?
Hoy traigo una comparativa de 4 de los modelos de generación de imagen más usados a día de hoy. En el mundo de la IA las novedades duran "poco", porque suelen ser enterradas por más novedades: ¿sale GPT 5.1? A los dos días sale Gemini 3. ¿Sale Nano Banana Pro? A los tres días, Seedream 4.5.
Así que voy a comparar los siguientes modelos: Nano Banana Pro, Seedream 4.5, Flux 2.0 Pro y GPT 1 - HQ (el de mayor calidad que hay en Freepik). Las condiciones van a ser las siguientes:
- El estilo a comparar va a ser siempre fotorrealista. Vamos a ver cuál se asemeja más al resultado de una foto hecha con una cámara o un móvil.
- Voy a usar el mismo prompt en todos los modelos.
- Voy a usar el primer resultado de cada modelo.
Si bien no soy muy fan de usar prompts iguales en distintos modelos, ahora que las IAs generativas (la mayoría al menos) están evolucionando hacia el uso de lenguaje natural, creo que tiene más sentido hacerlo.
Cuando usaba Midjourney (hasta el lanzamiento de Sora), con el que generé más de 150.000 imágenes, era diferente: básicamente convertía palabras en imagen, y cada palabra, cada espacio e incluso el orden en el que lo escribías tenía un peso enorme en el resultado.
Ahora, sin embargo, puedes escribir el prompt como se lo escribirías a ChatGPT o se lo describirías a un fotógrafo, y funciona genial; y por suerte, ese es el camino hacia donde están evolucionando todos los modelos.
¿Y los prompts en JSON? Seguro que los has visto, esos que te hacen parecer un hacker. Pues no sirven más que para eso. No, la IA no lo entiende mejor; de hecho, estás añadiendo más ruido.
Entiende el contexto igual, pero no por parecer más guay te va a dar un mejor resultado.
Para abarcar lo máximo posible, voy a generar imágenes de diferentes maneras:
- Con una persona como referencia: creando una imagen de cero, añadiéndola en un entorno o cambiando una cara por otra.
- Con un objeto como referencia estilo mockup.
- Diferentes estilos de fotografía: de producto, con flash...
- Con peso en el texto para comparar la precisión.
Entre las imágenes que genere, voy a ir combinando tanto textos más básicos como textos más elaborados para no solo ver el resultado sino comparar la precisión de la imagen con el texto y la "creatividad" o "conocimiento" de cada modelo.