De acordo com pt.wedoany.com-Em 15 de junho, a Sugon lançou uma nova geração de plataforma de computação de alto desempenho de uso geral. Esta plataforma é equipada com a primeira CPU de uso geral nacional de nível 10T, adotando um design de 128 núcleos e 512 threads, com capacidade de computação de precisão dupla FP64 de 10T por CPU. Em comparação com a geração anterior, o desempenho relativo de ponto flutuante de precisão dupla HPL da plataforma melhorou quase 2 vezes, o desempenho de acesso à memória STREAM melhorou quase 1 vez e o desempenho médio das aplicações melhorou quase 1 vez, atingindo pela primeira vez o nível emblemático dos fabricantes internacionais. Este lançamento visa cenários de computação de alta precisão, como computação científica, simulação industrial, engenharia de projeto, meteorologia oceânica, exploração de energia e AI for Science, demonstrando que a plataforma de computação de alto desempenho de uso geral da China entrou em uma nova fase de engenharia em termos de capacidade de computação da CPU, acesso à memória e adaptação de aplicações.
O valor central de uma plataforma de computação de alto desempenho de uso geral reside no fato de que ela não atende apenas a tarefas únicas de treinamento de IA, mas suporta um grande número de aplicações científicas e de engenharia que dependem de computação de ponto flutuante de precisão dupla e alta largura de banda de memória. O HPL é usado principalmente para medir a capacidade de pico do sistema em computação de ponto flutuante de alta precisão, enquanto o STREAM reflete a largura de banda da memória e a eficiência de acesso. Para simulação climática, mecânica dos fluidos, simulação estrutural, computação de materiais, triagem de medicamentos, exploração de petróleo e gás e design industrial complexo, o desempenho de precisão dupla da CPU, a capacidade de acesso à memória e a compatibilidade do ecossistema de software afetam diretamente se a tarefa pode ser executada de forma estável, se o ciclo de computação pode ser encurtado e se o software científico e industrial existente pode ser migrado a baixo custo.
A CPU de uso geral nacional de nível 10T equipada nesta plataforma eleva a capacidade de computação de precisão dupla FP64 de um único CPU para o nível de 10T e adota uma arquitetura de múltiplos threads com centenas de núcleos. Diferente das rotas de computação que enfatizam apenas aceleradores ou chips especializados, uma plataforma de CPU de uso geral enfatiza a compatibilidade do ecossistema, o agendamento de tarefas, o processamento de ramificações complexas e a capacidade de executar software de engenharia em larga escala. Informações públicas também mostram que esta plataforma é a primeira plataforma de computação de uso geral nacional compatível com o conjunto de instruções AVX-512 e é nativamente compatível com o ecossistema x86, o que pode reduzir os custos de migração de software e ecossistema em áreas relacionadas. Isso significa que, ao migrar aplicações de computação de alto desempenho, os usuários não precisam reconstruir completamente o ambiente de software e podem continuar mais facilmente com as bibliotecas de algoritmos, compiladores e fluxos de trabalho de engenharia existentes.
Do ponto de vista da engenharia de sistemas, esta atualização não é simplesmente a substituição de uma CPU, mas uma otimização coordenada em nível de plataforma em torno de "computação, armazenamento e rede". Tarefas de computação de alto desempenho geralmente exigem a execução paralela de um grande número de nós, e os gargalos podem aparecer no processador, memória, rede de interconexão, I/O de armazenamento ou sistema de dissipação de calor. Se a capacidade de computação de uma única CPU for melhorada, mas o acesso à memória, a interconexão e a dissipação de calor não acompanharem, o desempenho real da aplicação ainda será difícil de ser liberado. A Sugon enfatiza a melhoria simultânea do HPL, STREAM e desempenho da aplicação, indicando que a otimização da plataforma já cobriu vários elos, como núcleo de computação, acesso à memória, interconexão do sistema e adaptação de software de aplicação. Este é o ponto chave para que uma plataforma de computação de alto desempenho de uso geral passe dos parâmetros do chip para a usabilidade real de engenharia.
A forma de dissipação de calor também reflete as necessidades de implantação da plataforma em centros de computação de diferentes escalas. De acordo com o Jornal Diário do Conselho de Inovação Científica e Tecnológica (科创板日报), a plataforma oferece três formas de dissipação de calor para nós de computação: resfriamento a ar, resfriamento líquido por placa fria e resfriamento líquido por imersão, que podem ser adaptados para a construção de centros de computação de diferentes escalas. Para sistemas de computação de alta densidade, a capacidade de dissipação de calor limita diretamente a potência do rack e a estabilidade operacional contínua. O resfriamento a ar é adequado para algumas salas de servidores tradicionais e implantações de média-baixa densidade, enquanto o resfriamento líquido por placa fria e por imersão são mais adequados para ambientes de alta densidade, alta eficiência energética e clusters de grande escala. Com o crescimento simultâneo das cargas de trabalho de computação científica e computação de IA, os centros de computação precisam reequilibrar desempenho, consumo de energia, espaço e complexidade operacional. Soluções de dissipação de calor em nível de plataforma se tornarão um suporte importante para a implantação em larga escala de sistemas de computação de alto desempenho nacionais.
Este lançamento também mostra que o valor da CPU na computação de alto desempenho e na infraestrutura de IA está sendo redescoberto. GPUs e aceleradores de IA ocupam uma posição central no treinamento e inferência de grandes modelos, mas um grande número de cálculos científicos, simulações industriais e agendamento em nível de sistema ainda dependem de CPUs de uso geral de alto desempenho. Especialmente em cenários de AI for Science, simulação numérica tradicional, pré-processamento de dados, treinamento de modelos, análise de resultados e verificação de engenharia geralmente são executados de forma mista, exigindo que CPU, aceleradores, memória e interconexão de alta velocidade formem uma capacidade de plataforma unificada. Se a nova geração de plataforma de computação de alto desempenho de uso geral da Sugon puder ser continuamente validada em migração de aplicações, compatibilidade de ecossistema e implantação em cluster, ajudará a melhorar a capacidade de fornecimento autônomo da China em infraestrutura de computação de ponta.
Posteriormente, ainda é necessário observar o desempenho da plataforma em cenários reais de usuários. Os indicadores de desempenho em laboratório e os parâmetros do evento de lançamento são apenas o ponto de partida. Centros de computação científica, plataformas de simulação industrial, empresas de energia, instituições de pesquisa científica e centros de computação inteligente estão mais preocupados com a operação estável de longo prazo, compatibilidade de software, expansão de cluster, desempenho energético, prazo de entrega e custos operacionais. Se a plataforma puder manter a melhoria no desempenho de computação de precisão dupla, acesso à memória e desempenho de aplicações em aplicações complexas, e suportar implantação em larga escala sob diferentes formas de dissipação de calor, ela fornecerá uma nova base de computação de uso geral para a infraestrutura de computação de alto desempenho da China, além de oferecer um suporte de computação localizado mais forte para pesquisa científica, manufatura avançada e aplicações de engenharia digital.
Este texto foi elaborado por Wedoany. Qualquer citação por IA deve indicar a fonte “Wedoany”. Em caso de infração ou outros problemas, informe-nos prontamente, por favor. O conteúdo será corrigido ou removido. E-mail: news@wedoany.com









