NVIDIA acelera DiffusionGemma em 4x_Boletins

NVIDIA acelera DiffusionGemma em 4x

2026-06-11 10:25

Favoritos

De acordo com pt.wedoany.com-O Google DeepMind lançou um modelo experimental aberto chamado DiffusionGemma, projetado para geração de texto extremamente rápida. A NVIDIA otimizou este modelo para que ele funcione mais rapidamente em GPUs NVIDIA GeForce RTX, na plataforma NVIDIA RTX PRO e no sistema NVIDIA DGX Spark, abrangendo desde PCs locais até ambientes em nuvem.

Ao contrário da geração tradicional de texto palavra por palavra, o DiffusionGemma é capaz de gerar múltiplas palavras em paralelo para produzir blocos inteiros de texto. O modelo é construído sobre o Gemma 4, um modelo especialista misto com 26 bilhões de parâmetros, ativando apenas 3,8 bilhões de parâmetros por etapa, e combina cabeças de difusão com a arquitetura Gemma 4 do Google. Em termos de desempenho, o DiffusionGemma pode gerar texto em hardware local até 4 vezes mais rápido do que modelos autorregressivos equivalentes. Como um modelo aberto, o DiffusionGemma disponibiliza pesos sob a licença permissiva Apache 2.0 e pode ser executado localmente em RTX e DGX Spark sem dependência de nuvem, com suporte imediato no Hugging Face Transformers, vLLM e Unsloth. Além disso, os usuários podem testar o DiffusionGemma gratuitamente através da interface de aplicação hospedada pela NVIDIA em build.nvidia.com.

A maioria dos grandes modelos de linguagem (LLMs) atualmente em uso adota uma abordagem autorregressiva de geração, gerando um token por vez, onde cada nova palavra depende da anterior. O DiffusionGemma, baseado na arquitetura de especialista misto Gemma 4 26B, gera texto da mesma forma que modelos de difusão geram imagens: começando com ruído e refinando um bloco inteiro de texto de uma só vez. Em cada etapa, o modelo desruída até 256 tokens em paralelo. Para trabalhos de usuário único sensíveis à latência, como chat interativo, loops de agente ou assistentes no dispositivo, essa característica paralela permite que a velocidade de resposta acompanhe as necessidades de desenvolvimento e iteração.

LLMs tradicionais, ao gerar um token por vez, são frequentemente limitados pela largura de banda da memória, deixando grande parte do poder computacional subutilizado. Já o DiffusionGemma processa blocos completos de tokens em paralelo através do Transformer, e sua carga de trabalho computacionalmente intensiva aproveita exatamente as vantagens das GPUs NVIDIA. Os dados mostram que o DiffusionGemma atinge 1000 tokens/segundo em uma única GPU NVIDIA H100 Tensor Core, 150 tokens/segundo no NVIDIA DGX Spark, e a inferência local mais rápida no NVIDIA DGX Station, sendo cerca de 4 vezes mais rápido do que modelos autorregressivos equivalentes executados no mesmo cenário de usuário único.

Essa vantagem de desempenho se estende por toda a linha de produtos NVIDIA, incluindo o supercomputador pessoal de IA DGX Spark local, alimentado pelo NVIDIA GB10 Grace Blackwell Superchip com 128 GB de memória unificada; a estação de trabalho RTX PRO 6000, que oferece amplo espaço de execução local para desenvolvedores; o DGX Station, que fornece velocidade de inferência rápida de até 800 tokens/segundo e 748 GB de memória coerente; e as GPUs GeForce RTX, que em breve oferecerão suporte ao llama.cpp.

Usar o Hugging Face Transformers é a maneira mais rápida de iniciar o DiffusionGemma em uma GeForce RTX 5090 ou DGX Spark. Para inferência de maior throughput, o vLLM oferece suporte de serviço imediato. Os usuários podem ajustar o modelo para tarefas ou domínios específicos usando os frameworks Unsloth e NVIDIA NeMo. Mais detalhes técnicos podem ser encontrados no blog técnico da NVIDIA e no anúncio oficial do Google DeepMind.

Este texto foi elaborado por Wedoany. Qualquer citação por IA deve indicar a fonte “Wedoany”. Em caso de infração ou outros problemas, informe-nos prontamente, por favor. O conteúdo será corrigido ou removido. E-mail: news@wedoany.com