De acordo com pt.wedoany.com-A SanDisk lançou a tecnologia de memória flash de alta largura de banda (High Bandwidth Flash, HBF), com o objetivo de resolver o gargalo de memória em cargas de trabalho de inferência de IA.

A computação de IA está impulsionando mudanças na arquitetura de memória dos data centers. Atualmente, cerca de um sétimo dos data centers já têm capacidade para suportar cargas de trabalho de IA, e espera-se que essa proporção se aproxime de 70% até 2030. A IA está migrando de data centers de hiperescala para data centers empresariais e redes de borda, e espera-se que as aplicações de IA de borda gerem quase US$ 66,5 bilhões em receita até o final desta década. Esses vastos repositórios de conteúdo estão pressionando as arquiteturas de armazenamento tradicionais e expondo suas fraquezas estruturais inerentes.
A DRAM e a memória de alta largura de banda (HBM) dedicada, amplamente utilizadas em data centers, estão cada vez mais incapazes de acompanhar as demandas dos grandes modelos de IA em termos de densidade, capacidade de armazenamento e escalabilidade. Os fabricantes de computação de hiperescala enfrentam custos crescentes de produção, complexidade de design e consumo de energia com DRAM e HBM. Em data centers empresariais e aplicações de IA de borda, esse desafio é ainda mais pronunciado, pois esses ambientes têm espaço físico limitado e não podem arcar com os custos mais altos e o maior consumo de energia da memória. A inferência de IA, como carga de trabalho dominante atualmente, tem requisitos de gerenciamento de dados completamente diferentes do treinamento de IA, exigindo o armazenamento de modelos de IA grandes e em constante crescimento. As soluções de memória baseadas em HBM e DRAM já se mostram insuficientes em termos de capacidade e escalabilidade de custo.
A expansão da capacidade da DRAM praticamente estagnou, enquanto a demanda por maior capacidade na inferência de IA continua a crescer. As vantagens de baixa latência e acesso aleatório da DRAM não se alinham com a inferência de IA, pois os padrões de acesso da inferência são determinísticos e têm maior tolerância à latência por meio de técnicas como pré-busca de dados. Essas deficiências existem sob a indústria de DRAM, avaliada em US$ 120 bilhões, que enfrenta gastos massivos em infraestrutura de IA por parte de provedores de hiperescala (que podem chegar a US$ 6,7 trilhões até o final desta década).
A proposta HBF da SanDisk é uma nova arquitetura de memória, projetada especificamente para impulsionar a próxima geração de computação de IA. A HBF visa atender aos requisitos de capacidade, eficiência energética, taxa de transferência e escalabilidade para aplicações de computação avançada e intensivas em dados. Em comparação com a HBM, a HBF oferece maior capacidade e densidade de memória, com largura de banda comparável à HBM, e está mais alinhada com as tendências de inferência de IA. Como um meio de armazenamento persistente, a HBF retém dados mesmo quando a energia é desligada e possui estabilidade térmica para suportar temperaturas de operação mais altas. A tecnologia utiliza o design e a tecnologia de fabricação BiCS da SanDisk, bem como a arquitetura de chip, redefinindo a memória flash NAND por meio da otimização de características de alta largura de banda e memória de inferência, onde a tecnologia de wafer de matriz de ligação CMOS BiCS (CBA) é usada para melhorar a eficiência energética e a largura de banda.
Em comparação com a memória flash NAND tradicional, a HBF alcança menor latência e largura de banda de leitura significativamente maior, aproveitando paralelismo, escalonamento lógico avançado e técnicas de empilhamento personalizadas. Isso permite que grandes modelos de linguagem transfiram dados a velocidades próximas às da DRAM. Ao mesmo tempo, a HBF suporta grandes caches KV para processar com eficiência prompts de usuário longos e complexos, bem como dados específicos de clientes e domínios, melhorando assim a precisão da inferência de IA.
Como a HBM geralmente não pode ser usada em ambientes de borda e móveis devido a limitações de densidade, custo e consumo de energia, a HBF pode fornecer maior capacidade de memória para dispositivos de borda, como smartphones, para lidar com problemas de inferência de IA mais complexos. Com sua memória persistente, a HBF suporta a recuperação contínua de contextos antigos de consultas anteriores para resolver novos problemas. No domínio da computação empresarial, para ambientes com escala de usuários muito menor do que data centers de hiperescala, os clusters de GPU de grande porte suportados por HBM são proibitivamente caros. Ao adotar aceleradores que suportam HBF, pequenas empresas podem ajustar grandes modelos pré-treinados para domínios específicos.
Em comparação com a HBM, a HBF oferece vantagens claras de capacidade, ao mesmo tempo que fornece a alta taxa de transferência necessária para aplicações de inferência de IA. Como uma tecnologia de memória de sistema nova e escalável, a HBF ajuda a reduzir gargalos de desempenho e acelerar o tempo de obtenção de insights para aplicações de IA em data centers modernos e redes de borda.
Este texto foi elaborado por Wedoany. Qualquer citação por IA deve indicar a fonte “Wedoany”. Em caso de infração ou outros problemas, informe-nos prontamente, por favor. O conteúdo será corrigido ou removido. E-mail: news@wedoany.com









