De acordo com pt.wedoany.com-A Google lançou recentemente dois novos modelos voltados para desenvolvedores: Gemini Omni Flash e Nano Banana 2 Lite. O primeiro combina profundamente raciocínio multimodal com geração e edição de vídeos, enquanto o segundo é focado em geração de imagens de alta velocidade.
O modelo Gemini Omni Flash foi apresentado no Google I/O 2026, e sua capacidade principal é integrar o raciocínio multimodal do Gemini ao processo de geração e edição de vídeos. O modelo já está disponível através da API Gemini e do Google AI Studio. Suas quatro capacidades principais incluem: edição de vídeo por conversação, permitindo que usuários refinem vídeos usando linguagem natural; referência multimodal, que combina entradas de imagem, texto e vídeo para manter a consistência da cena; utilização do conhecimento do Gemini em áreas como história, biologia e lógica narrativa para construir vídeos; e sincronização de texto e ações de vídeo por meio de prompts simples. Em termos de preço, o custo de saída de vídeo do Omni Flash é de US$ 0,10 por segundo, igual ao do Veo 3.1 Fast.
A Google também listou as limitações atuais do modelo: atualmente suporta apenas geração de vídeos de até 10 segundos, não suporta upload de referência de áudio nem extensão de cena, a API aceita vídeos de até 3 segundos como material de referência, mas o modelo ainda não consegue processar corretamente esse tipo de entrada, e a consistência de personagens durante transições de cena e movimentos de câmera ainda é limitada.
Outro modelo, o Nano Banana 2 Lite, chamado gemini-3.1-flash-lite-image, é otimizado para cenários sensíveis à latência. Seu principal diferencial é a latência de geração de imagens de cerca de 4 segundos, um quinto do Nano Banana 2; o custo para gerar uma imagem de resolução 1K é de aproximadamente US$ 0,034, metade do Nano Banana 2 e um quarto do Nano Banana Pro. Em termos de renderização de texto e benchmarks, o Nano Banana 2 Lite está no mesmo nível de modelos como Grok, sendo adequado para cenários como geração em lote de materiais de e-commerce e iteração criativa de anúncios.

A Google demonstrou um fluxo de trabalho que combina os dois modelos em série: primeiro, usa o Nano Banana 2 Lite para gerar imagens rapidamente, depois insere as imagens geradas como material de referência no Gemini Omni Flash para convertê-las em vídeos. Para isso, a Google desenvolveu três aplicativos de demonstração: Anywhere, que permite combinar selfies ou fotos enviadas com pontos turísticos e gerar curtas-metragens dinâmicos; Space Lift, que, após o upload de fotos de um cômodo, gera diferentes opções de decoração e pode convertê-las em vídeos de tour espacial; e Omni Product Studio, que gera imagens contextualizadas e vídeos curtos de anúncios para produtos de e-commerce.

Link de referência: https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni-flash-nano-banana-2-lite/









