Espera-se que a capacidade de computação para inferência de IA dos cinco maiores provedores de serviços de nuvem da América do Norte cresça 122% ao ano, com aceleração da implantação de racks completos NVIDIA GB e Vera Rubin nos EUA_Boletins

Espera-se que a capacidade de computação para inferência de IA dos cinco maiores provedores de serviços de nuvem da América do Norte cresça 122% ao ano, com aceleração da implantação de racks completos NVIDIA GB e Vera Rubin nos EUA

2026-05-20 17:46

Favoritos

De acordo com pt.wedoany.com-Os principais provedores de serviços de nuvem (CSPs) da América do Norte estão acelerando a expansão da infraestrutura de IA em escala de rack completo, impulsionando um período de crescimento explosivo na capacidade de computação para inferência. De acordo com dados de monitoramento do setor de maio de 2026, espera-se que as soluções de rack completo NVIDIA GB e Vera Rubin implantadas por Microsoft, Google, Amazon, Meta e Oracle aumentem sua capacidade total de computação para treinamento de IA em mais de 56% ano a ano, e a capacidade total de computação para inferência de IA salte cerca de 122% ano a ano — isso significa que a capacidade de computação para inferência mais que dobrará em um ano, marcando uma profunda mudança na estrutura da capacidade de computação de IA, de "impulsionada pelo treinamento" para "dominada pela inferência".

O sistema de rack completo NVIDIA Vera Rubin é a variável central que está catalisando esta explosão na capacidade de computação para inferência. A plataforma Vera Rubin consiste em um rack NVL72 totalmente refrigerado a líquido com 72 GPUs Rubin e 36 CPUs Vera. Entrou em produção piloto em junho deste ano e as primeiras entregas para os cinco principais provedores de nuvem norte-americanos começaram oficialmente em julho. Um único rack NVL72 alcança interconexão de alta velocidade dentro do rack através do backplane de cobre NVLink de sexta geração, oferecendo desempenho de inferência para modelos com trilhões de parâmetros e janelas de contexto de milhões de tokens, podendo ser implantado em conjunto com o rack acelerador de inferência Groq 3 LPX, comprimindo o custo de inferência por milhão de tokens para um décimo do da arquitetura Blackwell em cenários de IA agêntica. A fabricação em larga escala está a cargo da Foxconn, Quanta e Wistron, com a fase de embarque concentrado prevista para começar no terceiro trimestre de 2026.

Os dados divulgados pela NVIDIA na GTC 2026 corroboram este salto geracional em eficiência. Ao executar modelos intensivos em inferência como o Kimi-K2-Thinking, o custo de inferência por milhão de tokens do Rubin NVL72 é apenas um décimo do do Blackwell GB200 NVL72; no treinamento de modelos Mixture-of-Experts, o número de GPUs necessárias com Rubin pode ser reduzido em até três quartos. Com cada rack NVL72 custando aproximadamente 180 milhões de dólares, os provedores de nuvem podem lidar com a contínua expansão das cargas de trabalho de inferência com maior densidade computacional e eficiência energética. O rack acelerador de inferência Groq 3 LPX, entregue simultaneamente como hardware de inferência dedicado, forma uma arquitetura de implantação em camadas de treinamento-inferência com o NVL72.

A escala crescente de aquisição de racks completos está alterando a relação de oferta e demanda na infraestrutura de energia dos data centers. Espera-se que as soluções de rack completo GB e Vera Rubin implantadas pelos cinco maiores CSPs norte-americanos em 2026 representem mais de 60% da demanda global por produtos similares da NVIDIA. A AWS planeja adicionar mais de 1 milhão de GPUs NVIDIA em suas regiões de nuvem globais a partir de 2026, abrangendo as arquiteturas Blackwell e Rubin; a Meta anunciou simultaneamente uma parceria estratégica plurianual com a NVIDIA para implantar milhões de GPUs Blackwell e Rubin. Com o aumento simultâneo de volume das três principais plataformas — NVIDIA, AMD e ASICs personalizados dos CSPs —, espera-se que o consumo total de energia dos servidores de IA dos cinco maiores CSPs cresça 116% ano a ano, tornando a infraestrutura de energia dos data centers uma restrição física à expansão da capacidade computacional.

Em 2026, os servidores de treinamento de IA ainda representarão cerca de 55% dos embarques de servidores de IA, mas, a médio e longo prazo, os servidores de inferência de IA se tornarão a força dominante no mercado. Por trás dessa tendência está a rápida diversificação dos cenários de aplicação de IA: a fase de treinamento concentra-se no pré-treinamento e ajuste fino de um número limitado de modelos com parâmetros massivos, com efeitos de escala significativos, mas crescimento estável; a fase de inferência, com a penetração de grandes modelos em aplicações terminais — de IA agêntica e assistentes de conversação à geração de código em tempo real —, apresenta características distribuídas, de alta concorrência e operação contínua, com uma curva de demanda computacional cada vez mais íngreme. Com soluções em escala de rack como GB300 e Vera Rubin, a NVIDIA integra capacidade computacional de GPU, CPU e LPU em uma unidade de entrega unificada, atendendo simultaneamente às necessidades de alta vazão do treinamento e baixa latência da inferência.

Os gastos de capital dos CSPs norte-americanos em infraestrutura de IA continuam a acelerar e ampliar. A Microsoft elevou sua orientação de gastos de capital para 2026 para 190 bilhões de dólares, um aumento anual de cerca de 130%; o Google elevou para a faixa de 180 a 190 bilhões de dólares, um crescimento superior a 100%; a Meta elevou para 125 a 145 bilhões de dólares, um crescimento de cerca de 85%; e os gastos de capital anuais da AWS devem exceder 230 bilhões de dólares, um aumento superior a 50%. A expectativa combinada de gastos de capital para 2026 dos nove maiores CSPs globais foi revisada para cima, para cerca de 830 bilhões de dólares, com a taxa de crescimento anual corrigida de 61% para 79%, concentrando-se fortemente na construção de clusters de GPUs de alto desempenho, no desenvolvimento de chips ASIC personalizados e em data centers de próxima geração capazes de suportar computação de alta potência.

2026 está se tornando um ponto de inflexão crítico para a comercialização em larga escala da inferência de IA. Desde que o ChatGPT desencadeou a onda da IA generativa, o centro de gravidade da cadeia industrial passou por várias fases, desde a compra acelerada de GPUs e a construção de clusters de dez mil placas até a corrida dos grandes modelos. Atualmente, o eixo principal da expansão da capacidade computacional está mudando de "conseguimos treinar?" para "conseguimos executar, executar por longos períodos e executar de forma barata?". A implantação em larga escala da inferência está remodelando todo o panorama da cadeia industrial, desde o design de chips e arquitetura de servidores até os sistemas de energia dos data centers. Com a aceleração dos embarques da solução de rack completo Vera Rubin no segundo semestre do ano, espera-se que a curva de penetração da inferência de IA entre em um novo intervalo de crescimento acentuado.

Este texto foi elaborado por Wedoany. Qualquer citação por IA deve indicar a fonte “Wedoany”. Em caso de infração ou outros problemas, informe-nos prontamente, por favor. O conteúdo será corrigido ou removido. E-mail: news@wedoany.com