Na conferência OFC realizada na semana passada em Los Angeles, EUA, o profundo impacto da inteligência artificial na arquitetura de data centers foi o centro das atenções. Kannan Raj, arquiteto de infraestrutura de IA da Oracle, afirmou em um painel de discussão: "Quando as especificações IEEE foram formadas, elas exigiam uma taxa de erro de link de 2.4e-4. Hoje, esse padrão é difícil de atender às necessidades de uma arquitetura saudável." Ele enfatizou os desafios enfrentados pela arquitetura atual.

Raj apontou: "Estamos lidando com milhões de links e componentes, o que eu chamo de tirania dos grandes números. Com um grande volume de operações, a taxa de falhas aumenta e o tempo médio entre falhas diminui." As cargas de trabalho de IA exigem que os data centers realizem expansão, escalabilidade horizontal e expansão entre domínios para evitar que uma única falha interrompa o treinamento e desperdice recursos, especialmente quando os parâmetros do modelo atingem dezenas de bilhões, o impacto é significativo.
As hiperescaladoras e provedores de serviços focam em três tipos de conectividade: A expansão conecta GPUs dentro do mesmo cluster, fornecendo baixa latência; a escalabilidade horizontal alcança paralelismo através de múltiplos racks, melhorando o desempenho, mas dependendo da rede; a expansão entre domínios conecta data centers em diferentes locais, formando uma "fábrica de IA". Raj explicou: "A expansão é uma conexão localizada de baixa latência, a escalabilidade horizontal dentro do rack é adequada para inferência, e a expansão entre domínios pode alcançar distâncias de milhares de quilômetros."
Para suportar essas arquiteturas, soluções ópticas como óptica linear plugável, óptica coerente e óptica co-empacotada tornam-se cruciais. Tecnologias de transmissão óptica de alta capacidade, como 400G e 800G, fornecem conexões eficientes de longa distância. Raj mencionou: "A expansão está mudando de cobre para óptica, a escalabilidade horizontal usa links DR ou FR, e a expansão entre domínios envolve óptica FR, coerente ou ZR." Ele enfatizou que os limites arquitetônicos estão se tornando difusos, a resiliência se torna um fator importante, e arquiteturas de rede multiplano suportam clusters de IA em grande escala.
A evolução da arquitetura de data centers é impulsionada pela demanda de IA, com tecnologias ópticas e inovações em interconexão impulsionando a rede em direção a uma maior eficiência e resiliência, adaptando-se às cargas de trabalho futuras.









