Google dos EUA lança modelo de difusão de texto de código aberto DiffusionGemma
2026-06-11 08:51
Favoritos

De acordo com pt.wedoany.com-Em 10 de junho, a Google dos EUA lançou o modelo experimental de código aberto DiffusionGemma. O modelo adota uma arquitetura de difusão de texto, disponibilizado sob a licença Apache 2.0, voltado para pesquisadores e desenvolvedores explorarem inferência local rápida, geração interativa de texto e cenários de aplicação de baixa concorrência. Em GPUs dedicadas, a velocidade de geração de texto é até 4 vezes maior do que a dos modelos tradicionais de linguagem grande autorregressivos.

A abordagem técnica do DiffusionGemma difere dos modelos de linguagem grande comuns. Modelos autorregressivos tradicionais geralmente geram tokens um a um, da esquerda para a direita; quanto mais longo o texto, mais evidente é o gargalo de espera pela próxima saída. O DiffusionGemma, por outro lado, tenta gerar um quadro de texto de uma só vez e, em seguida, corrige o conteúdo por meio de múltiplas iterações. A Google o projetou como um modelo de especialistas mistos com um total de 26B parâmetros, ativando cerca de 3,8B parâmetros durante a inferência, podendo ser adaptado, após quantização, a GPUs de consumo de alto nível com 18 GB de VRAM. Para desenvolvedores locais, isso significa que o modelo não se destina apenas à implantação em larga escala na nuvem, mas também pode executar tarefas de edição rápida, conclusão de código, reordenação de texto e geração experimental em uma única placa de vídeo de alto desempenho.

A vantagem de velocidade do modelo vem principalmente do mecanismo de geração paralela. A cada cálculo direto, o DiffusionGemma pode gerar 256 tokens em paralelo, permitindo que os tokens dentro do bloco de saída se atentem mutuamente e sejam continuamente corrigidos em iterações subsequentes. Essa estrutura é adequada para edição inline, preenchimento de código, estruturas de texto não lineares, gráficos matemáticos e algumas tarefas que exigem restrições contextuais. A Google divulgou que, em uma única NVIDIA H100, o DiffusionGemma pode atingir uma saída de mais de 1000 tokens por segundo; em uma NVIDIA GeForce RTX 5090, pode atingir mais de 700 tokens por segundo.

No entanto, não é um substituto para o Gemma 4.

O posicionamento do DiffusionGemma pela Google é claro: é um modelo experimental, priorizando fluxos de trabalho locais interativos e sensíveis à velocidade, com qualidade geral de saída inferior ao Gemma 4 padrão. Para aplicações que exigem a mais alta qualidade de geração, estabilidade e entrega em nível de produção, a Google ainda recomenda o uso do Gemma 4 padrão. As vantagens do DiffusionGemma também não se aplicam a todos os ambientes de implantação. Em serviços de nuvem de alta concorrência, modelos autorregressivos podem aproveitar ao máximo o poder computacional por meio do processamento em lote, e os ganhos da decodificação paralela de difusão de texto podem diminuir, podendo até aumentar os custos do serviço. Em outras palavras, é mais adequado para lotes baixos a médios, usuário único local ou ambientes experimentais de desenvolvimento, em vez de substituir diretamente as arquiteturas de modelos de nuvem convencionais.

Este lançamento ainda tem importância significativa para o ecossistema de comunicação de informações e desenvolvimento de IA. No passado, modelos de difusão eram mais conhecidos pelos usuários na geração de imagens e vídeos, enquanto a geração de texto era dominada por arquiteturas autorregressivas. O DiffusionGemma combina a abordagem de difusão de texto com o ecossistema de modelos abertos Gemma, oferecendo aos desenvolvedores outra plataforma experimental priorizando a velocidade. Com o crescimento da demanda por IA local, estações de trabalho pessoais, PCs com IA e dispositivos de borda, os desenvolvedores precisam cada vez mais realizar geração rápida, modificação instantânea e processamento de tarefas sensíveis à privacidade sem depender de nuvens remotas. A licença de código aberto também beneficia instituições de pesquisa, fabricantes de ferramentas e desenvolvedores que continuam experimentando com estruturas de modelos, mecanismos de inferência, esquemas de quantização e métodos de ajuste fino.

O impacto na cadeia industrial se concentrará em inferência de IA local, GPUs de consumo, ferramentas de desenvolvedor e plataformas de serviço de modelos. O DiffusionGemma já suporta a obtenção de pesos através do Hugging Face e pode ser usado em conjunto com ferramentas como MLX, vLLM e Hugging Face Transformers; a Google também colaborou com a NVIDIA para otimizar o desempenho na pilha de hardware, abrangendo placas de vídeo de consumo RTX, RTX PRO, Hopper e plataformas empresariais como Blackwell. Os próximos marcos incluem o efeito do ajuste fino por desenvolvedores, o progresso do suporte do ecossistema como llama.cpp, a experiência real do modelo em conclusão de código e edição em tempo real, e se a arquitetura de difusão de texto pode continuar a reduzir a lacuna de saída em relação aos modelos autorregressivos de alta qualidade. Se essa abordagem continuar a amadurecer, as aplicações de IA local podem obter respostas de geração mais rápidas, além de trazer novos ramos técnicos para o ecossistema de modelos abertos.

Este texto foi elaborado por Wedoany. Qualquer citação por IA deve indicar a fonte “Wedoany”. Em caso de infração ou outros problemas, informe-nos prontamente, por favor. O conteúdo será corrigido ou removido. E-mail: news@wedoany.com