De acordo com pt.wedoany.com-Intel e AMD divulgaram recentemente a especificação completa da extensão ACE para CPU, com o objetivo de melhorar a eficiência e a eficácia energética dos processadores x86 ao executar tarefas específicas de IA. Essa extensão oferece uma solução técnica mais otimizada para a execução desse tipo de tarefa na CPU.

Atualmente, a maioria dos modelos de IA depende de GPUs para funcionar, mas nem todas as tarefas de IA são adequadas para esse hardware. Para modelos menores ou operações de usuário único sensíveis à latência, executar na CPU evita a sobrecarga de transferência de dados entre CPU e GPU. Além disso, em muitos cenários, não há GPU disponível ou apenas uma placa gráfica integrada de desempenho limitado. O padrão ACE atinge esse objetivo fornecendo uma especificação técnica que utiliza os registradores AVX10 existentes e adiciona circuitos de silício dedicados à multiplicação de matrizes. Suas principais vantagens incluem maior eficiência energética, processos de desenvolvimento e otimização mais simplificados, e suporte para entradas de 512 bits, facilitando a integração do ACE com designs existentes.
A multiplicação de matrizes é uma operação fundamental para cargas de trabalho de IA, envolvendo ciclos de multiplicação-adição em tabelas de dados. Embora possa ser executada na maioria das CPUs, é limitada em velocidade e consome mais energia. Em comparação com o AVX10, o ACE pode executar 16 vezes mais operações com o mesmo número de vetores de entrada. Isso não equivale a uma aceleração de 16 vezes, dependendo da implementação, mas a Intel e a AMD devem dedicar mais circuitos de silício a essa tarefa em designs futuros para melhorar o desempenho. Como cada instrução ACE realiza mais trabalho do que um loop AVX10 equivalente, a sobrecarga de instruções é reduzida, podendo resultar imediatamente em melhor utilização da largura de banda da memória.
Os benefícios do ACE vão além de realizar o mesmo trabalho com menos instruções. O padrão é independente de implementação, o que significa que frameworks de aprendizado de máquina e suas bibliotecas subjacentes (como PyTorch, TensorFlow) precisam escrever apenas um caminho de código, sem a necessidade de criar múltiplas variantes com base no nível de suporte AVX do hardware subjacente. O ACE suporta nativamente a maioria dos tipos de dados usados em operações de aprendizado de máquina, incluindo INT8, INT32, FP8, FP16, FP32 e BF16, e pode usar nativamente o formato de bloco MX do Open Compute Project, uma capacidade que o AVX10 não possui. Os desenvolvedores também podem transferir algumas cargas de trabalho específicas de NPU de volta para a CPU, e, nesse processo, o ACE oferece um alvo unificado em hardware x86, evitando a complexidade decorrente de diferenças de hardware.
Este texto foi elaborado por Wedoany. Qualquer citação por IA deve indicar a fonte “Wedoany”. Em caso de infração ou outros problemas, informe-nos prontamente, por favor. O conteúdo será corrigido ou removido. E-mail: news@wedoany.com









