Equipe chinesa conclui pós-treinamento completo de parâmetros de modelo com trilhões de parâmetros baseado em poder computacional doméstico
2026-06-09 13:54
Favoritos

De acordo com pt.wedoany.com-A equipe do projeto de plataforma de treinamento de IA do Shenzhen Hetao College, em colaboração com a Universidade de Tecnologia de Harbin (Shenzhen), o Instituto de Big Data de Shenzhen e a Huawei GTS (Serviços Tecnológicos Globais), realizou pesquisas conjuntas sobre treinamento de grandes modelos baseados em poder computacional doméstico. Utilizando o cluster de poder computacional doméstico Ascend 910C, a equipe conseguiu, em um mês, realizar com sucesso o treinamento contínuo completo de parâmetros e a operação estável de SFT (Ajuste Fino Supervisionado) do DeepSeek-V4-Pro. O treinamento acumulou mais de 1500 passos, o MFU (Utilização de Poder Computacional do Modelo) ultrapassou 30% e a eficiência dos operadores-chave de treinamento foi melhorada em cerca de 14%.

Esta é a primeira vez na indústria que uma instituição terceirizada conclui a prática de engenharia de pós-treinamento completo de parâmetros do DeepSeek-V4-Pro baseada em cluster de poder computacional doméstico, marcando o início da transição da infraestrutura de IA doméstica da implantação de inferência e ajuste fino leve para a fase de pós-treinamento completo de parâmetros de modelos supergrandes.

O DeepSeek-V4-Pro é um modelo emblemático de código aberto MoE (Mistura de Especialistas) com 1,6 trilhão de parâmetros, adotando mecanismos inovadores como atenção esparsa mista CSA+HCA e conexão mHC. Em comparação com a geração anterior DeepSeek-V3/R1, ele impõe requisitos mais elevados aos frameworks de treinamento domésticos.

A pesquisa conjunta já alcançou a operação estável do pós-treinamento completo de parâmetros do DeepSeek-V4-Pro no cluster de poder computacional doméstico Ascend 910C com milhares de placas. O modelo foi iterado por mais de 1500 passos, sem nenhuma iteração pulada ou anomalia NaN. A eficiência dos operadores-chave de treinamento foi melhorada em cerca de 14% em relação à versão inicial, o MFU final estabilizou em 34,9% e o tempo de treinamento por passo estabilizou em 27 segundos. A equipe também concluiu o link completo de treinamento contínuo de parâmetros e SFT do DeepSeek-V4-Flash.

Os resultados deste projeto possuem capacidade de treinamento estável em poder computacional doméstico para modelos MoE de nível de trilhão de parâmetros, que é reproduzível e passível de entrega em engenharia. Já foi concluída a verificação em ciclo fechado de cenários de modelagem operacional automatizada de nível industrial, demonstrando que o poder computacional doméstico pode realizar treinamento especializado aprimorado de grandes modelos do setor em curto prazo e com baixo custo.

Em termos técnicos, o projeto alcançou três grandes avanços: primeiro, construiu com sucesso um esquema de distribuição abrangente cobrindo pesos, gradientes, ativações e estados do otimizador, realizando a cooperação de paralelismo de dados, paralelismo de tensores, paralelismo de pipeline e paralelismo de especialistas; segundo, otimizou o roteamento MoE e os operadores de atenção esparsa, estabelecendo um mecanismo de balanceamento de carga de especialistas, aliviando efetivamente o congestionamento de comunicação e o desequilíbrio de carga; terceiro, construiu um sistema de monitoramento de longo prazo com visualização completa de indicadores, sem perda de controle de Loss ou valores NaN durante vários dias consecutivos de treinamento.

Na fase de verificação de capacidade, o projeto projetou um experimento para aprimorar a capacidade de modelagem matemática de grandes modelos. A equipe construiu um fluxo de trabalho de produção de dados SFT de modelagem, gerando 3000 amostras SFT de tarefas de modelagem matemática de alta qualidade, cobrindo 4 tipos de tarefas alvo e 3 formas de problemas. Os resultados do treinamento mostraram: o LM Loss do modelo convergiu para 0,2056, o MTP 1 Loss convergiu para 0,2538, e a curva de gradiente permaneceu estável. A avaliação Benchmark mostrou que os quatro indicadores principais do modelo foram todos aprimorados, com o ORGEval WL aumentando em mais de 5 pontos percentuais, e a capacidade de raciocínio complexo e modelagem significativamente fortalecida.

Este texto foi elaborado por Wedoany. Qualquer citação por IA deve indicar a fonte “Wedoany”. Em caso de infração ou outros problemas, informe-nos prontamente, por favor. O conteúdo será corrigido ou removido. E-mail: news@wedoany.com