De acordo com pt.wedoany.com-A Huawei, em parceria com a China Mobile Hubei, concluiu a primeira validação em rede comercial da solução de aceleração de inferência de IA (AI Inference Acceleration Solution) no setor de telecomunicações da China. O resultado foi divulgado durante a MWC Shanghai 2026, realizada de 24 a 26 de junho, no Pavilhão N1 do Shanghai New International Expo Centre (SNIEC).

Com a evolução das aplicações de IA para o modelo de agente, cenários como geração de código e diálogos de múltiplas rodadas, que exigem processamento de contextos longos, tornam-se cada vez mais frequentes. No entanto, a capacidade limitada da memória on-chip e da DRAM reduz a taxa de acerto do cache KV (cache de chave-valor), impactando o desempenho da inferência.
A Huawei construiu a solução com base no armazenamento OceanStor A800, no Ascend A3 SuperPOD e no Unified Cache Manager (UCM, Gerenciador de Cache Unificado) lançado em 2025. O UCM utiliza armazenamento externo de alto desempenho para alcançar um cache KV em escala de PB, superando as limitações de capacidade da memória on-chip e da DRAM. O sistema gerencia e agenda o cache KV de forma hierárquica ao longo de todo o ciclo de vida, expandindo a janela de contexto de uma única sessão de diálogo e reutilizando o cache KV histórico em diálogos de múltiplas rodadas, eliminando cálculos repetidos e reduzindo os custos de inferência.
A validação foi realizada no ambiente de rede comercial da China Mobile Hubei, utilizando o framework vLLM-Ascend para testar modelos como MiniMax M2.5 e GLM-5.1, simulando entradas de sequências longas de 8K a 190K tokens. O modelo GLM-5.1 apresentou melhoria de 51% a 93% no Time To First Token (TTFT, Tempo para o Primeiro Token) e aumento de 56% a 372% nos Tokens Por Segundo (TPS, Tokens por Segundo) por NPU. Em termos de comprimento de sequência, o TPS aumentou 313% em 64K e 372% em 128K. Após a aplicação do UCM no modelo MiniMax M2.5, o TTFT melhorou de 26% a 62%, e o TPS aumentou 58% em 64K e 78% em 128K. Com o aumento do comprimento do contexto, o efeito de aceleração da solução torna-se ainda mais evidente.
Um representante da China Mobile Hubei afirmou que Hubei está localizada em uma região central, com latência de apenas 10 milissegundos para os oito principais hubs de computação do país. Em cenários como interação com agentes de IA e geração de código, a solução pode aumentar a taxa de transferência em mais de 50%, estabelecendo uma base para a implantação em larga escala de serviços de IA. Michael Qiu, Presidente de Marketing e Soluções de Vendas de Armazenamento de Dados Global da Huawei, destacou que, com o lançamento de pacotes de tokens pelas operadoras, a implantação em larga escala de agentes de IA entra em uma nova fase, e espera-se que o consumo de tokens cresça exponencialmente.
Este texto foi elaborado por Wedoany. Qualquer citação por IA deve indicar a fonte “Wedoany”. Em caso de infração ou outros problemas, informe-nos prontamente, por favor. O conteúdo será corrigido ou removido. E-mail: news@wedoany.com









