Qualcomm revela acelerador AI250 baseado em HBC no Dia do Investidor de 2026
2026-07-01 13:52
Favoritos

De acordo com pt.wedoany.com-A Qualcomm anunciou sua entrada na infraestrutura de IA para data centers, revelando na semana passada (Dia do Investidor de 2026) a série de aceleradores AI250 baseada em arquitetura de computação próxima à memória. A tecnologia empilha DRAM para formar um módulo unificado de computação e armazenamento, visando oferecer eficiência de inferência superior às GPUs atuais.

Slide de apresentação da Qualcomm mostrando módulos da tecnologia HBC e um gráfico de chip iluminado no palco.

A Qualcomm nomeou a tecnologia como High Bandwidth Computing (HBC). Tony Pialis, vice-presidente executivo de data centers, afirmou em apresentação para investidores que a HBC oferece as vantagens de desempenho da SRAM, combinadas com a densidade e capacidade de armazenamento das pilhas HBM. A série AI250 está prevista para ser lançada no próximo ano como parte do sistema de rack Dragonfly, marcando uma mudança significativa na estratégia de infraestrutura de IA da Qualcomm. Embora os processadores Snapdragon já possuam NPUs integrados, no segmento de data centers, a Qualcomm anteriormente enfrentava dificuldades para obter a mesma atenção do mercado que a Nvidia, AMD ou até mesmo startups como a Cerebras.

Comparadas às GPUs dos dois gigantes, as séries de aceleradores AI da Qualcomm atualmente não são superiores, mas a empresa busca deixar sua marca no mercado de data centers. A placa única AI250 afirma ter 768 GB de capacidade de armazenamento e largura de banda de memória efetiva de até 133 TB/s. Como referência, a Groq 3 LPU da Nvidia oferece apenas 500 MB de SRAM e 150 TB/s de largura de banda. A Qualcomm reconhece que esses números dependem do termo "efetivo", pois seu sistema Dragonfly baseado em AI200 afirma que todos os 56 chips têm uma largura de banda de memória "efetiva" total de 414 TB/s, mas alcançar esse valor com apenas LPDDR5x de 8800 MT/s exigiria um barramento de 6720 bits, algo que a empresa quase certamente não possui. A Qualcomm insiste que isso representa "a largura de banda física pura da interface LPDDR", mas se recusa a explicar como atinge o que a Nvidia consegue com oito pilhas HBM3e.

Os materiais de marketing da Qualcomm indicam que, com a transição para a HBC, a AI250 oferecerá 18 vezes a largura de banda efetiva da AI200, e a futura AI300 fornecerá 54 vezes. Esses multiplicadores "efetivos" são, na verdade, características da arquitetura HBC. Ao mover parte das unidades de computação XPU para abaixo da DRAM, é possível reduzir significativamente o consumo de energia do chip. As GPUs tradicionais de data center dependem da troca de dados entre a HBM e o die de computação; mesmo com tecnologias de empacotamento avançadas, como a CoWoS da TSMC, o consumo de energia ainda é considerável. A HBC, ao empilhar a DRAM diretamente sobre parte da lógica e usar Through-Silicon Vias (TSV) para conexão, encurta drasticamente o caminho entre computação e armazenamento. Pialis comparou a situação a trabalhar no prédio onde se mora, movendo-se apenas para cima e para baixo, sem precisar usar rodovias e interposers de silício caros.

O benefício de executar operações limitadas por largura de banda no die base é reduzir a quantidade de dados transferidos entre a HBC e o SoC, amplificando assim a largura de banda da memória. A Qualcomm provavelmente não executará toda a pilha de software de IA na HBC, pois a maior largura de banda de memória beneficia principalmente a fase de decodificação, quando todos os pesos ativos do modelo fluem da memória token por token de forma autorregressiva. A decodificação não é intensiva em computação, portanto, realizá-la parcial ou totalmente na HBC evita as restrições térmicas de enterrar unidades de computação sob múltiplas camadas de DRAM. A Qualcomm afirma que a AI250 pode ser usada como um acelerador de IA independente ou em uma arquitetura de inferência separada, usando GPUs ou outros componentes da Qualcomm para o processamento de prompts, enquanto a AI250 acelera as operações de decodificação intensivas em memória. A Qualcomm não forneceu dados de pico de FLOPS na divulgação da AI250 e, quando solicitada, recusou-se a revelar detalhes.

Embora a Qualcomm seja uma das primeiras empresas de design de chips a promover a computação próxima à memória ou HBC, a tecnologia não está fora do alcance da Nvidia ou AMD. Rumores indicam que tanto a Nvidia quanto a AMD estão colaborando com fornecedores de HBM e a TSMC para desenvolver dies base personalizados, visando melhorar o desempenho de suas próximas gerações de chips. A Qualcomm afirma que sua HBC "usa memória LPDDR em uma arquitetura de computação próxima à memória especialmente construída, que combina computação e largura de banda de memória altamente acelerada em um design de silício empilhado em 3D. A HBC é uma arquitetura única, projetada para enfrentar o gargalo de movimentação de dados em IA, aproximando a computação da memória, melhorando a eficiência da largura de banda de memória e aumentando a eficiência energética em cargas de trabalho de inferência de IA. A HBM tem mais pilhas de DRAM, usa interposers 2.5D para rotear mais linhas e não realiza computação no die lógico base." A startup de chips de IA d-Matrix também está desenvolvendo aceleradores que usam DRAM empilhada em 3D para expandir a capacidade de computação em memória.

Durante o Dia do Investidor, a Qualcomm também anunciou a aquisição da startup de software de IA Modular. A Modular foi fundada por Tim Davis e Chris Lattner, sendo este último o criador do LLVM, Clang, da linguagem de programação Swift e da infraestrutura de compilador MLIR (Multi-Level Intermediate Representation). Na Modular, Lattner e sua equipe desenvolveram o Mojo, uma interface de programação de baixo nível voltada para GPUs, que oferece uma alternativa de alto desempenho às pilhas CUDA da Nvidia ou HIP e ROCm da AMD. A ideia central é que os usuários possam escrever aplicativos de IA de alto desempenho sem se preocupar com o hardware subjacente. Para a Qualcomm, o Mojo oferece uma oportunidade de contornar o fosso do CUDA, permitindo que os clientes não precisem escolher uma plataforma, desenvolvam aplicativos e os executem em qualquer recurso computacional disponível no momento. A Modular também desenvolveu uma plataforma de serviço chamada Max, semelhante ao SGLang ou vLLM, que pode ser executada de forma intercambiável em hardware AMD ou Nvidia. Como é construída sobre o Mojo, teoricamente requer quase nenhum ajuste manual.

Se a aquisição for concluída este ano sem intervenção dos reguladores, o produto deve ajudar a Qualcomm a competir em um ambiente onde o software está se tornando mais importante que o hardware. A Qualcomm planeja lançar a série de racks AI200 ainda este ano, o primeiro AI250 baseado em HBC a partir de 2027, e a segunda plataforma HBC está programada para 2028. A empresa também divulgou anteriormente informações sobre seu novo CPU para data centers.

Este boletim é uma compilação e reprodução de informações de parceiros estratégicos e da internet global, destinado apenas para troca de informações entre leitores. Em caso de infração ou outros problemas, por favor, informe-nos imediatamente, e este site fará as devidas modificações ou exclusões. A reprodução deste artigo é estritamente proibida sem autorização formal. E-mail: news@wedoany.com