Texto → Video
Modo 01 · El básicoLe describes la escena en palabras y te entrega el clip. Cuatro ingredientes: quién, qué hace, dónde + cómo se ve, cómo se mueve la cámara. Si das los cuatro, el output mejora muchísimo.
El modelo de Google que entiende física real, edita videos que tú grabaste y te obedece con un solo mensaje.
Anunciado en Google I/O el 19 de mayo de 2026. Gemini Omni es una familia de modelos multimodales hecha por DeepMind. La diferencia clave: no es solo otro generador de video. Google lo llama "world model" — entiende gravedad, energía cinética y dinámica de fluidos, y le pega mejor a cómo se mueve el mundo de verdad.
Cada función ocupa dos páginas en el PDF: concepto, sintaxis y argumentos en una, ejemplos prácticos, errores comunes, trucos pro y prompts mágicos para IA en la otra.
Le describes la escena en palabras y te entrega el clip. Cuatro ingredientes: quién, qué hace, dónde + cómo se ve, cómo se mueve la cámara. Si das los cuatro, el output mejora muchísimo.
Le pasas una imagen y un prompt — la convierte en video. La imagen puede ser el primer frame (arranca con ella) o el último frame (termina ahí, Omni inventa lo que pasó antes). El truco que casi nadie usa.
Le pasas un video que TÚ grabaste y un prompt. Cambia ropa, ilumina, agrega objetos, extiende la toma. Conversacional: cada cambio se acumula sobre el anterior sin re-especificar todo. Esto no se había visto en ninguna otra IA hasta ahora.
Movimiento de cámara explícito, audio explícito, iluminación clara, encadena en el mismo chat, 10 segundos máx. Y errores que te van a pasar: manos raras, texto mal, caras de famosos, pedir demasiado por turno. Un cambio por turno — la edición conversacional es la feature, úsala.
Disponible en todos los idiomas y mercados donde corre Gemini. Si estás en LATAM, sí aplica.
En la app de Gemini o en Google Flow. Si no quieres pagar: Omni aparece gratis dentro de YouTube Shorts y en la app YouTube Create. Mismo modelo, menos controles avanzados — perfecto para empezar.
Si no tienes material grabado, empieza con Modo 1 (texto → video). Si ya tienes una foto, Modo 2. Si tienes video real que necesitas arreglar, Modo 3. La regla rápida: si vas a grabar — usa Modo 3 después. Si no — Modo 1.
World model que entiende física real, edita video que tú grabaste, sincroniza audio nativo y recuerda contexto entre turnos. Cinco pasos en 30 segundos para entrar — pega gratis en YouTube Shorts/Create si no quieres pagar todavía.