Gigantes da tecnologia dos EUA aceleram desenvolvimento de chips de IA próprios; AWS aumenta desempenho por watt em 4x
2026-06-30 09:48
Favoritos

De acordo com pt.wedoany.com-Com a chegada da era da "IA agente", capaz de julgamento e ação autônomos, o foco do mercado global de infraestrutura de IA está mudando rapidamente do "treinamento" em larga escala para a "inferência" necessária para serviços reais. Nesse processo, a eficiência energética dos data centers e o custo total de propriedade (TCO) superam o desempenho absoluto de chips individuais. Para quebrar o domínio de mercado da NVIDIA, fabricantes globais de hardware, gigantes da tecnologia e empresas sul-coreanas de semicondutores K-AI estão acelerando suas ações.

O aumento da demanda computacional e o monopólio das GPUs da NVIDIA pressionam os custos das empresas, levando gigantes globais da tecnologia a desenvolver seus próprios semicondutores de IA otimizados para seus data centers e serviços. Essas empresas visam construir uma infraestrutura full-stack que abrange chips, arquitetura de servidores, rede e software, maximizando a "economia de tokens" e a "eficiência energética" em ambientes de produção reais. O Google Cloud atualizou seu semicondutor de IA próprio, o TPU, para a sexta geração, "Trillium", com desempenho computacional e capacidade de memória de alta largura de banda (HBM) significativamente maiores que a geração anterior, usado para treinar e inferir o modelo de grande porte "Gemini", e fornecido a clientes externos através da plataforma Google Cloud (GCP). A Microsoft (MS), para otimizar a relação custo-benefício da infraestrutura do Azure Cloud, lançou a série de aceleradores de IA personalizados "Maia", baseados em uma parceria de design de chips com a OpenAI, visando reduzir os custos operacionais dos serviços Azure OpenAI (como o ChatGPT). A Meta está introduzindo seu acelerador de treinamento e inferência próprio, "MTIA" (Meta Training and Inference Accelerator), otimizado para algoritmos de recomendação de anúncios e mecanismos de classificação de feed, processando computação em larga escala com baixo consumo de energia, e já expandiu seu uso para a inferência de serviços de sua série de modelos de linguagem grandes de código aberto "Llama".

Entre os gigantes da tecnologia, a AWS adota uma estratégia dupla, expandindo seu ecossistema de chips próprios enquanto mantém a parceria com a NVIDIA. O negócio de aceleradores da AWS já atingiu dezenas de bilhões de dólares e se tornou um nível central da infraestrutura. Mais de 50% dos tokens em seu serviço de IA generativa totalmente gerenciado, "Amazon Bedrock", são executados na infraestrutura de seus chips aceleradores próprios "Trainium" e "Inferentia". O "Trainium2", que integra 16 chips e pode processar modelos de até 1 trilhão de parâmetros, oferece 30-40% melhor relação custo-benefício em comparação com instâncias de GPU de uso geral similares, com receita relacionada crescendo 150% trimestre a trimestre, e já conquistou parceiros de produção como o cluster de treinamento "Project Rainier" construído em colaboração com a Anthropic, além de empresas como Apple, Uber e Databricks. O chip de inferência dedicado "Inferentia" oferece até 2,3x mais throughput e até 70% menor custo de inferência em comparação com instâncias existentes. A AWS já lançou o "Trainium3", otimizado para cargas de trabalho de IA agente e geração de vídeo, com desempenho por watt até 4x maior que a geração anterior. Testes de benchmark iniciais mostram economia de até 50% nos custos de treinamento em comparação com GPUs de uso geral. O "EC2 Trn3 UltraServer", que combina até 144 chips Trainium3, oferece 362 FP8 PFLOPs de desempenho computacional e 20,7 TB de memória HBM3e, e, combinado com o "EC2 UltraCluster 3.0", uma rede não-bloqueante em escala Petabit baseada no adaptador Elastic Fabric Adapter (EFA), permite que centenas de milhares de chips trabalhem juntos como um único acelerador. O novo recurso "Neuron Agentic Development", lançado em 2026, permite que agentes de IA de codificação portem automaticamente modelos existentes para o Trainium e executem validação de consistência numérica, eliminando as barreiras de migração de hardware.

Além disso, o grupo de gigantes da tecnologia está reduzindo a dependência do "CUDA" da NVIDIA através de alianças de software de código aberto. A AWS promove o "Neuron SDK" de código aberto, projetado com base no padrão aberto XLA e integrado com frameworks padrão da indústria como PyTorch, JAX, vLLM e Hugging Face, permitindo que desenvolvedores usem essas bibliotecas com o mínimo de modificação no código. O mercado global de aceleradores está saindo de um monopólio único de hardware de uso geral para uma era de diversidade arquitetônica. A concorrência entre gigantes da tecnologia em chips de silício próprios e eficiência de infraestrutura full-stack se intensificará com o aumento das cargas de trabalho de IA agente e geração de mídia de alta capacidade.

(Fonte: Pixabay)

Lee Soo-ji, arquiteta de soluções da AWS, destacou sobre a estratégia de infraestrutura de IA que o investimento da AWS em chips de silício de IA próprios não visa apenas substituir hardware específico, mas oferecer aos clientes melhor relação custo-benefício e uma gama mais ampla de opções, criando um ciclo virtuoso de computação acelerada. Somente com a coexistência de múltiplas arquiteturas no mercado será possível alcançar redução de preços e melhoria de desempenho através da concorrência. Ao avaliar a infraestrutura de IA, desde o chip acelerador até a arquitetura do servidor que o suporta, a rede que conecta clusters em larga escala e o software e serviços gerenciados que maximizam o potencial do hardware, o sistema full-stack integrado organicamente desses elementos é a chave para reduzir o TCO. No ambiente de IA da próxima geração, a gestão da "economia de tokens" e da "eficiência energética" determinará a sobrevivência dos negócios das empresas. Na IA agente, as características computacionais mudam constantemente de acordo com as necessidades de planejamento, orquestração e resposta em tempo real das tarefas, e como a energia do data center é um recurso limitado, o desempenho por watt, ou seja, a eficiência energética, se tornará a competitividade central das empresas.

Este boletim é uma compilação e reprodução de informações de parceiros estratégicos e da internet global, destinado apenas para troca de informações entre leitores. Em caso de infração ou outros problemas, por favor, informe-nos imediatamente, e este site fará as devidas modificações ou exclusões. A reprodução deste artigo é estritamente proibida sem autorização formal. E-mail: news@wedoany.com