Solução de código aberto da NVIDIA nos EUA aumenta o throughput de ajuste fino do MoE em até 3,7 vezes
2026-06-26 13:55
Favoritos

De acordo com pt.wedoany.com-A NVIDIA lançou a solução de código aberto NeMo AutoModel, que alcança um aumento de 3,4 a 3,7 vezes no throughput de treinamento durante o ajuste fino do modelo de especialistas mistos (MoE), além de reduzir o uso de memória GPU em 29% a 32%.

O NeMo AutoModel é compatível com a interface de programação de aplicações (API) Hugging Face Transformers v5. Os usuários precisam apenas adicionar uma linha de código import para acelerar o ajuste fino do modelo MoE. Em um único nó com 8 GPUs NVIDIA H100 80GB, usando o modelo Qwen3-30B-A3B como exemplo, a solução aumenta o throughput por GPU (TPS/GPU) de 3075 para 11340, um incremento de 3,69 vezes.

A arquitetura MoE tornou-se a escolha principal para modelos de ponta, mas os problemas de engenharia associados, como paralelismo de especialistas, fusão de comunicação e otimização de kernels, exigem suporte de infraestrutura adequada. A solução da NVIDIA adiciona três tecnologias ao Transformers v5: Paralelismo de Especialistas (Expert Parallelism, EP), DeepEP e TransformerEngine.

A tecnologia de paralelismo de especialistas distribui os pesos dos especialistas por múltiplas GPUs, reduzindo a pressão de memória em cada GPU individual. Com 8 GPUs e ep_size=8, por exemplo, o uso de memória MoE por GPU cai para um oitavo do valor original. Para o modelo Qwen3, essa tecnologia reduz a memória de pico de 68,2 GiB para 48,1 GiB, uma redução de 29%. Para o modelo Nemotron Nanomo, o uso de memória cai de 62,1 GiB para 42,5 GiB, uma redução de 32%. A memória liberada pode ser usada para suportar treinamento com lotes maiores e sequências mais longas.

O DeepEP realiza a fusão entre computação e comunicação. No modo tradicional, há um custo de comunicação entre a distribuição de tokens e o cálculo dos especialistas. O DeepEP integra as operações de distribuição e combinação de tokens por meio de kernels GPU otimizados, fazendo com que o processo de comunicação se sobreponha ao cálculo dos especialistas.

O kernel TransformerEngine acelera operações como mecanismos de atenção fundidos, camadas lineares e RMSNorm, atuando tanto nas camadas MoE quanto nas camadas Transformer comuns.

Experimentos com os modelos Qwen3-30B-A3B e Nemotron 3 Nano 30B-A3B mostram que, em comparação com o Transformers v5, esta solução aumenta o throughput de treinamento em 3,4 a 3,7 vezes, ao mesmo tempo que reduz o consumo de memória em 29% a 32%. A NVIDIA também divulgou os resultados do ajuste fino completo do modelo Nemotron 3 Ultra 550B A55B em um ambiente com 16 nós H100, totalizando 128 GPUs, com TPS/GPU de 815, TFLOP/s/GPU de aproximadamente 293 e memória de pico de 58,2 GiB. A NVIDIA afirma que o Transformers v5 não consegue operar nessa escala devido ao esgotamento de memória.

Este texto foi elaborado por Wedoany. Qualquer citação por IA deve indicar a fonte “Wedoany”. Em caso de infração ou outros problemas, informe-nos prontamente, por favor. O conteúdo será corrigido ou removido. E-mail: news@wedoany.com