No dia 30 de junho, a empresa chinesa Zhonghao Xinying lançou o novo chip de computação dedicado TPU de alto desempenho totalmente desenvolvido internamente, "Xuyu", e simultaneamente apresentou a plataforma integrada de hardware e software para computação inteligente "Taize 2.0". O chip "Xuyu" possui capacidade de computação de ponto flutuante de precisão mista de 896 TFLOPS, capacidade de inferência de 8 bits de 1792 TOPS e consumo de energia nominal de 600 W por placa.
O posicionamento técnico do "Xuyu" concentra-se no treinamento de grandes modelos, aceleração de inferência e computação AI de alto rendimento. TPU é um chip acelerador dedicado para computação tensorial e operações matriciais, cuja tarefa principal é melhorar a eficiência computacional de modelos de aprendizado profundo em treinamento, inferência e processamento de tarefas em lote. Diferente das GPUs, que enfatizam a cobertura de computação de uso geral, as TPUs focam mais na eficiência da multiplicação de matrizes, operações tensoriais, escalonamento de operadores e movimentação de dados em modelos de AI. O "Xuyu" lançado pela Zhonghao Xinying eleva a capacidade de computação de ponto flutuante de precisão mista para 896 TFLOPS e a capacidade de inferência de 8 bits para 1792 TOPS, indicando que foram realizadas atualizações nas unidades de computação e nos caminhos de dados para cenários de grandes modelos de linguagem, modelos multimodais e inferência de alta concorrência.
Este chip é o produto TPU de segunda geração da Zhonghao Xinying. A capacidade de computação do "Xuyu" é três vezes maior que a da geração anterior "Chana", com foco no aumento do rendimento computacional no treinamento e inferência de modelos.
A execução de grandes modelos não depende apenas da capacidade de pico de computação, mas também é influenciada pela capacidade da memória de vídeo, cache no chip, interconexão de chips, largura de banda de comunicação, biblioteca de operadores e estrutura de software. Inferência de contexto longo, diálogos de múltiplas rodadas, tarefas de agente inteligente e geração em lote geram uma grande quantidade de cache KV, chamadas de parâmetros e transferência de dados intermediários. Se a capacidade de armazenamento e interconexão for insuficiente, as unidades de computação serão retardadas pela movimentação de dados. O lançamento simultâneo do "Taize 2.0" pela Zhonghao Xinying em torno do "Xuyu" indica que sua rota técnica não é entregar o chip isoladamente, mas sim compor uma plataforma completa de computação inteligente com chip, placa aceleradora, servidor, software de sistema, biblioteca de operadores, escalonamento de cluster e adaptação de modelos. Essa capacidade de plataforma afeta diretamente se os modelos de AI podem operar de forma estável em clusters de computação de grande escala.
O "Taize 2.0" é voltado para a implantação de clusters de computação AI, desempenhando um papel de sinergia entre hardware e software. O chip é responsável pela computação subjacente, enquanto a plataforma cuida do carregamento de modelos, escalonamento de tarefas, gerenciamento de recursos e operação e manutenção.
A adaptação do ecossistema de modelos é outro ponto-chave deste lançamento. Informações públicas mostram que o "Taize 2.0" é compatível com ferramentas e estruturas de treinamento e inferência distribuída como PyTorch, vLLM, SGLang, DeepSpeed, Megatron-LM, e adapta-se a grandes modelos de linguagem e modelos multimodais como Qwen, DeepSeek, GLM, MiniMAX. Para empresas de chips de AI, os parâmetros de hardware são apenas a primeira camada de capacidade. A velocidade com que os desenvolvedores podem migrar modelos, a estabilidade da execução dos operadores, a eficiência da chamada da estrutura de inferência e a capacidade de expansão contínua do cluster é que determinam a velocidade de entrada do chip em projetos reais. A Zhonghao Xinying enfatiza que o núcleo IP do chip, o conjunto de instruções dedicado, a biblioteca de aceleração de operadores subjacente e o software de sistema do equipamento completo são todos desenvolvidos internamente, com o objetivo central de reduzir os custos de adaptação na migração de modelos e implantação de capacidade de computação.
Para AI industrial, computação científica, centros de computação inteligente governamentais e empresariais e plataformas de grandes modelos setoriais, os requisitos para sistemas de computação estão mudando de "ser capaz de executar modelos" para "operação estável de longo prazo". Tarefas como identificação de estado de equipamentos, inspeção visual industrial, perguntas e respostas em bases de conhecimento, otimização de parâmetros de processo, auxílio à pesquisa e manutenção preditiva exigem inferência de alto rendimento, bem como resposta estável, controle de consumo de energia e um ambiente de software sustentável.
Com o lançamento do "Xuyu", a rota TPU da Zhonghao Xinying entra em um estágio de maior capacidade de computação. O valor técnico subsequente dependerá principalmente da capacidade de produção em massa do chip, da eficiência da interconexão do cluster, da maturidade da pilha de software, do escopo de adaptação de modelos e do desempenho operacional em cenários reais.
