ModelBest lança em código aberto o primeiro modelo grande eficiente para dispositivos terminais treinado com base numa plataforma de computação nacional
2026-05-25 17:26
Favoritos

Recentemente, a ModelBest, em conjunto com a Universidade de Tsinghua e a comunidade de código aberto OpenBMB, lançou e publicou oficialmente em código aberto o seu mais recente resultado na área de treino de modelos grandes de baixo bit — o BitCPM-CANN. Este é o primeiro modelo grande ternário (1,58-bit) a realizar treino de ponta a ponta inteiramente com base numa plataforma de computação nacional (Huawei Ascend) e a ser disponibilizado em código aberto.

Há muito que o gargalo físico da memória representa um desafio para a aplicação em larga escala de modelos grandes, estando a memória a tornar-se um dos recursos mais escassos na cadeia de abastecimento global de IA. Neste contexto, o BitCPM-CANN adota uma rota de treino com consciência de quantização, forçando cada bit a exercer a máxima densidade de informação e eficiência de transporte de conhecimento. Simultaneamente, a otimização de 6 vezes na memória de vídeo fornecida pelo BitCPM-CANN permite às empresas aumentar a capacidade do modelo ou a densidade de serviço sem adicionar memória física.

Vale a pena mencionar que, desde os operadores de quantização de nível mais baixo e algoritmos de treino com consciência de quantização, até à estratégia de paralelismo completa e estrutura de treino, toda a cadeia de treino do BitCPM-CANN foi realizada nativamente na plataforma Huawei Ascend, incluindo quatro tamanhos de modelo: 0,5B, 1B, 3B e 8B. Em comparação item a item com a família MiniCPM-4 de precisão total do mesmo tamanho, o desempenho é excelente. Este é o primeiro resultado publicamente disponível na plataforma Ascend a completar treino de 1,58-bit de ponta a ponta e a realizar uma avaliação comparativa com precisão total, com a escala do modelo a ser avançada de uma só vez para o nível de 8B.

Profissionais do setor consideram que o lançamento e a abertura do código do BitCPM-CANN concretizam um ciclo completo e fechado de NPU nacional, modelo nacional e estrutura de treino nacional, fornecendo à indústria de IA para dispositivos terminais uma solução de modelo de baixo bit diretamente utilizável.

Este boletim é uma compilação e reprodução de informações de parceiros estratégicos e da internet global, destinado apenas para troca de informações entre leitores. Em caso de infração ou outros problemas, por favor, informe-nos imediatamente, e este site fará as devidas modificações ou exclusões. A reprodução deste artigo é estritamente proibida sem autorização formal. E-mail: news@wedoany.com