El último modelo de imágenes de IA "Banana" de Google enloquece a los usuarios con "Vibe Photoshoping"

Bitget

News

深潮2025/08/29 15:14

Show original

By:深潮TechFlow

La alta coherencia de roles ha brindado una experiencia de "Vibe Photoshoping" sin precedentes.

Bitget offers one-stop trading for cryptocurrencies, stocks, and gold. Trade now!

A welcome pack worth 6200 USDT for new users! Sign up now!

La alta coherencia de los personajes ha traído una experiencia de "Vibe Photoshoping" sin precedentes.

¿Recuerdas el misterioso modelo de edición de imágenes AI "nano-banana" que fue tema de conversación hace un tiempo? En ese entonces, en la arena de modelos de lenguaje LMArena, fue ampliamente debatido gracias a su destacado desempeño. Los expertos técnicos de Google Gemini también participaron activamente en redes sociales, generando gran expectación, e incluso llegó a ser considerado como el rumoreado Gemini 3.0 Pro.

Ahora, Google finalmente ha revelado su misterio.

En la madrugada del 27 de agosto, hora GMT+8, Google AI Studio lanzó oficialmente Gemini 2.5 Flash Image (nombre en clave nano banana) 🍌.

Gemini 2.5 Flash Image, que llevaba tiempo generando expectación, finalmente hace su aparición | Fuente de la imagen: GeekPark

Este es hasta ahora el modelo de generación y edición de imágenes más avanzado de Google, no solo con una velocidad increíble, casi una experiencia "relámpago", sino que también ha logrado resultados SOTA en múltiples rankings, y lidera ampliamente en LMArena.

Gemini 2.5 Flash Image alcanza capacidades SOTA desde su lanzamiento | Fuente de la imagen: LMarena.ai

En su blog técnico, Google menciona que Gemini 2.0 Flash ya había ganado la preferencia de los desarrolladores gracias a su baja latencia y alta rentabilidad, pero los usuarios siempre han esperado imágenes de mayor calidad y un control creativo más potente. Gemini 2.5 Flash Image llega precisamente con estas mejoras: la coherencia de los personajes finalmente se mantiene plenamente, la edición de imágenes basada en prompts es más precisa, la fusión de múltiples imágenes es natural y fluida, y su comprensión del conocimiento del mundo real lo convierte no solo en un modelo, sino en el "origen" que sienta las bases para la próxima generación de aplicaciones populares.

GeekPark también lo ha probado de inmediato. Sorprendentemente, esto no es solo una actualización de modelo, sino que por primera vez se siente que el futuro de la edición de imágenes con AI está a la vuelta de la esquina.

Ya está disponible para probar en Google AI Studio | Fuente de la imagen: GeekPark

Al principio, solo tenía la intención de experimentar de manera convencional, "ver en qué es más rápido el nuevo modelo". Pero no esperaba que, en tan solo unas horas de uso, pudiera vislumbrar el aspecto de la próxima generación de aplicaciones exitosas.

En el pasado, estábamos acostumbrados a herramientas como MeituPic, donde bastaba con pulsar un botón o aplicar un filtro para embellecer rápidamente una foto. Pero la sensación que transmite Gemini 2.5 Flash Image es completamente diferente. Es increíblemente rápido, inteligente como un diseñador que entiende tus deseos; solo necesitas decir el efecto que quieres y lo presenta en pantalla en segundos.

Además del resultado, la velocidad es otra diferencia notable de Gemini 2.5 Flash Image respecto a los productos anteriores de generación de imágenes | Fuente de la imagen: GeekPark

01 Generación ultrarrápida, resultados en segundos

La experiencia más intuitiva de nano banana es la velocidad. Antes, al usar algunos modelos open source, incluso con una buena configuración de computadora, desde ingresar el prompt hasta generar una imagen decente podían pasar decenas de segundos o más. Para los usuarios móviles, esta espera era aún más tediosa.

Pero Gemini 2.5 Flash Image ha reducido esta barrera a solo unos segundos. Es el modelo multimodal nativo "más nuevo, rápido y eficiente" según Google, y claramente han hecho grandes esfuerzos en su optimización. En mis pruebas, al ingresar un prompt, en unos tres o cuatro segundos ya tenía el resultado (UTC+8), con una resolución y nivel de detalle bastante claros.

Esta experiencia se asemeja a usar MeituPic para editar fotos: pulsas el botón de "embellecer" y el efecto es casi instantáneo. La diferencia es que MeituPic aplica un filtro mediante un algoritmo, mientras que Gemini 2.5 Flash Image construye una imagen desde cero o transforma una foto según tus necesidades. Esta sensación de "apuntar y disparar" es algo que los tediosos procesos de edición tradicionales no pueden igualar.

Requerimientos como "eliminar personas del fondo" se resuelven con un solo prompt | Fuente de la imagen: GeekPark

Si la velocidad resuelve la experiencia del usuario tradicional de edición, la "multimodalidad nativa" amplía los límites de las capacidades de imágenes AI.

Gemini 2.5 Flash Image no solo puede generar imágenes, sino que también entiende entradas de texto e imagen simultáneamente. Esto significa que puedo darle una foto y un prompt textual, y combinará ambas informaciones para entender exactamente lo que quiero.

Por ejemplo, subí una foto tomada en la calle y le pedí "cambia el fondo por el paisaje nocturno de Shinjuku, Tokio" (UTC+8). No solo identificó el sujeto de la foto, sino que recortó a la persona con precisión y reemplazó el fondo por las luces de neón de Shinjuku. Lo más destacable es que mantuvo la coherencia de la luz y las sombras del personaje, evitando ese efecto artificial de "recorte duro" que suele ocurrir con el recorte manual.

Esta capacidad de comprensión me recuerda a una función que los fabricantes de móviles han promocionado en sus galerías en los últimos años: "cambiar el fondo con un solo clic". Pero antes, el resultado solía tener bordes borrosos y luces poco realistas. Ahora, Gemini 2.5 Flash Image utiliza conocimiento del mundo y comprensión visual para mejorar estos detalles, logrando resultados mucho más naturales y conservando detalles con mayor precisión que las herramientas tradicionales de generación de imágenes por texto o imagen.

Imagen original & resultado generado por Gemini 2.5 Flash Image | Fuente de la imagen: GeekPark

Por eso creo que redefinirá la experiencia de edición: ya no dependeremos de numerosos ajustes manuales, sino que el modelo, gracias a su comprensión semántica natural, completará tareas de manera eficiente, especialmente en escenarios como la edición de retratos, donde los detalles son cruciales.

Para este tipo de necesidades de edición de retratos, la coherencia de personajes de Gemini 2.5 Flash Image realmente ofrece una experiencia de "Vibe Photoshoping" sin precedentes.

Ayuda a los programadores a "salvar la dignidad" en un segundo | Fuente de la imagen: GeekPark

Esta experiencia rompe con la impresión que muchos tenían de la generación de imágenes AI: "esotérica": si el prompt está bien escrito, el resultado es sorprendente; si no, el resultado puede ser completamente erróneo.

Pero en Gemini 2.5 Flash Image, noté que esta "sensación esotérica" se ha reducido mucho. Su comprensión de los prompts es más precisa y cercana a la intuición del usuario, por eso muchos sienten que es mucho más fácil de usar.

Por ejemplo, le pedí "difumina el fondo y resalta el personaje principal" (UTC+8), y en segundos generó exactamente el efecto que quería; le pedí "cambia la expresión de la persona en la foto por una sonrisa", y no solo levantó ligeramente la comisura de los labios, sino que también ajustó la mirada, cuidando los detalles; incluso probé "colorea una foto en blanco y negro", y el resultado no fue un coloreado aleatorio, sino que intentó acercarse lo más posible a la atmósfera cromática de las fotos históricas.

Esta capacidad de "decir y hacer" me recuerda a cuando usaba MeituPic: solo quería suavizar la piel, pero terminaba con una cara artificial de "belleza nivel 10". Ahora, las acciones de Gemini 2.5 Flash Image son precisas y mesuradas, realmente entiende lo que quieres y lo reproduce fielmente.

02 Capacidades mejoradas, difícil volver atrás

Para ser más claro, lo comparé con las herramientas de edición móvil que uso habitualmente.

En Snapseed, si quiero difuminar el fondo, normalmente tengo que seleccionar manualmente el área principal y ajustar el grado de desenfoque, lo que puede tomar uno o dos minutos y requiere varias correcciones.

En MeituPic, aunque hay una función de desenfoque de fondo con un solo clic, a menudo difumina los bordes del personaje, logrando un efecto poco natural.

Pero en Gemini 2.5 Flash Image, solo necesito decirlo y automáticamente reconoce los límites entre el personaje y el fondo, logrando un desenfoque natural sin necesidad de retoques adicionales.

Al modificar detalles de la imagen, evita el "pintarrajeo" que solían producir otras herramientas AI | Fuente de la imagen: Twitter

Esta comparación demuestra algo: Gemini 2.5 Flash Image libera al usuario de operaciones complejas y delega más trabajo al modelo. Para el usuario común, reduce la barrera de entrada a la edición; para los profesionales, ahorra mucho tiempo.

Después de probarlo, mi mayor impresión es que Gemini 2.5 Flash Image ya no es solo una herramienta de edición, sino más bien un "asistente inteligente".

Antes, al usar MeituPic, estábamos utilizando un conjunto de funciones preestablecidas: filtros, embellecimiento, mosaico, cada botón correspondía a una función. Solo tenías que ir seleccionando y ajustando hasta quedar satisfecho.

Ahora, la lógica de Gemini 2.5 Flash Image es completamente diferente. Ya no requiere que aprendas la lógica de la herramienta, sino que entiende directamente tus necesidades. Solo tienes que decirlo y lo hace por ti.

Este cambio parece sutil, pero en realidad transforma por completo la relación en el proceso de edición. Antes nos adaptábamos a la herramienta, ahora la herramienta se adapta a nosotros. Este tipo de interacción es el prototipo de la próxima generación de aplicaciones.

Por ahora, Gemini 2.5 Flash Image aún está en una etapa temprana y puede tener limitaciones funcionales. Pero su velocidad, comprensión y fidelidad ya son suficientes para imaginar el futuro.

¿Qué pasaría si se combinara con MeituPic? Tal vez abras la app, le digas al móvil "ayúdame a retocar esta foto para que la piel se vea más natural" y en segundos tienes el resultado (UTC+8); o cuando tomas fotos de viaje, le pides "cambia el clima a soleado" (UTC+8) y la foto se transforma al instante; o incluso en edición de video, puedes cambiar la atmósfera de un clip con solo una frase.

Este método podría convertirse rápidamente en la función principal de edición de imágenes en los sistemas operativos móviles | Fuente de la imagen: Twitter

Por eso creo que revolucionará rápidamente los flujos de trabajo actuales de las herramientas de edición, definiendo la próxima generación de "MeituPic": no solo edición, sino una nueva forma de interactuar con el procesamiento de imágenes, haciendo que la AI sea tu compañera de postproducción fotográfica.

Pero por ahora, Gemini 2.5 Flash Image aún no puede ser una app de edición masiva lista para usar: no solo porque su objetivo principal sigue siendo la generación de imágenes más que el ajuste sobre una base existente, sino también porque todas las imágenes creadas o editadas con Gemini 2.5 Flash Image incluirán una marca de agua digital SynthID, para que las plataformas sociales puedan identificar contenido generado por AI.

03 El punto de explosión de una app viral

Si lo piensas, MeituPic se convirtió en una app universal porque resolvió de la manera más sencilla el problema que todos querían solucionar: hacer que las fotos se vean mejor.

Gemini 2.5 Flash Image lleva esto un paso más allá, puliendo las complejas capacidades de AI en una experiencia de "imagen instantánea" al alcance de todos.

La primera vez que le dije "ayúdame a difuminar el fondo" (UTC+8), y en segundos la imagen fue procesada de forma natural, supe claramente: este es el punto de partida de una app viral. No es solo un modelo, sino la capacidad base de innumerables productos futuros.

La función AI de "cambiar el cielo con un clic" que fue viral entre usuarios de móviles hace unos años | Fuente de la imagen: comunidad vivo

Quizás dentro de unos años olvidemos el nombre en clave Banana, pero veremos cada vez más herramientas de edición de imágenes que permiten "decir lo que quieres y lograrlo al instante", y tal vez, como MeituPic en su momento, se conviertan en un recuerdo compartido de toda una generación de usuarios.

Solo que esta vez, la AI llevará la imaginación mucho más lejos.

Disclaimer: The content of this article solely reflects the author's opinion and does not represent the platform in any capacity. This article is not intended to serve as a reference for making investment decisions.

PoolX: Haz staking y gana nuevos tokens.

APR de hasta 12%. Gana más airdrop bloqueando más.

¡Bloquea ahora!

El último modelo de imágenes de IA "Banana" de Google enloquece a los usuarios con "Vibe Photoshoping"

01 Generación ultrarrápida, resultados en segundos

02 Capacidades mejoradas, difícil volver atrás

03 El punto de explosión de una app viral

You may also like

Trending news

Crypto prices