A4E da China Suanmiao Technology em tape-out, largura de banda de empilhamento 3D atinge 16 TB/s_Boletins

A4E da China Suanmiao Technology em tape-out, largura de banda de empilhamento 3D atinge 16 TB/s

2026-07-01 16:36

Favoritos

De acordo com pt.wedoany.com-Os grandes modelos de IA estão evoluindo a um ritmo impressionante. O crescimento do armazenamento e da largura de banda está muito aquém do ritmo de expansão dos modelos. Este é o problema do "gargalo de memória" que há muito atormenta a indústria. Mais problemático ainda, a tecnologia de encapsulamento 2.5D atualmente dominante (como o CoWoS da TSMC) é uma extensão planar única, com recursos limitados de roteamento e layout, baixa densidade de integração e, em cenários de alta capacidade computacional de IA, a área do chip não pode ser mais reduzida.

Quando a expansão lateral se torna insustentável, a tecnologia de empilhamento 3D, que "cresce para cima", torna-se a escolha inevitável. Para os chips de IA nacionais chineses, a tecnologia de empilhamento 3D oferece um caminho viável para "trocar espaço por desempenho" e contornar parte do bloqueio de processos, dada a realidade industrial de capacidade limitada em processos avançados e fornecimento restrito de HBM de alto nível.

01 Tecnologia de encapsulamento: de "assentamento planar" a "construção tridimensional"

No campo do encapsulamento avançado, o encapsulamento 2.5D integra múltiplos dies nus em um interposer de silício, permitindo interconexão de alta velocidade e comunicação de curta distância entre chips. O interposer de silício geralmente utiliza tecnologia de Through-Silicon Via (TSV) para interconexão vertical, apresentando características de interconexão de alta densidade e alto desempenho, o que pode melhorar significativamente o desempenho geral do sistema.

A tecnologia de empilhamento 3D, através do empilhamento de chips ou encapsulamentos, como o uso de TSV ou tecnologia de ligação híbrida, visa aumentar a funcionalidade, melhorar a densidade de integração, reduzir os custos de encapsulamento e, devido ao encurtamento do comprimento da interconexão, contribuir para o aumento da velocidade de operação. Através do empilhamento 3D, unidades funcionais que originalmente estavam dispostas em diferentes chips no encapsulamento 2.5D, como lógica de computação, matrizes de armazenamento e interfaces de E/S, podem ser fisicamente empilhadas e interconectadas eletricamente na dimensão vertical, superando assim os limites físicos da integração planar.

Os encapsulamentos 3D e 3.5D utilizam a tecnologia de empilhamento 3D. A tecnologia de encapsulamento 3D empilha verticalmente múltiplos dies nus (Bare Die) e utiliza tecnologias de interconexão avançadas, como TSV e microbumps, para comunicação entre camadas, superando as limitações físicas da integração planar tradicional. Essa arquitetura encurta drasticamente os caminhos de transmissão eletrônica, reduzindo significativamente a latência e o consumo de energia, ao mesmo tempo que alcança largura de banda de interconexão e densidade de encapsulamento extremamente altas. O encapsulamento 3.5D, por sua vez, introduz um interposer 2.5D para expansão lateral sobre o empilhamento vertical 3D, formando uma arquitetura composta "tridimensional + planar".

Atualmente, os principais chips de IA nacionais chineses, como os da Cambricon, Kunlunxin, Biren Technology e Iluvatar CoreX, basicamente utilizam a tecnologia de encapsulamento 2.5D para interconectar lado a lado os chips de computação GPU/AI com a memória HBM, utilizando interposer de silício e RDL (Redistribution Layer) para construir redes de interconexão de alta densidade. No entanto, a largura de banda desta solução de memória externa é geralmente de apenas 1–4 TB/s e, limitada pela área planar, a densidade de integração e a largura de banda de interconexão já estão próximas do limite físico.

02 Gigantes internacionais: empilhamento 3D e 3.5D já entraram em fase de produção em massa

Os gigantes internacionais de semicondutores já estão posicionados no 3D/3.5D, e alguns produtos já entraram em fase de produção e entrega.

Em 2023, a AMD lançou a série Instinct MI300 de aceleradores de IA, um chip que utiliza tecnologia de encapsulamento 3.5D e entrou em produção em massa. A AMD descreve sua tecnologia como a fusão de chips GPU e I/O empilhados em 3D através de ligação híbrida, combinada com encapsulamento 2.5D padrão. A solução de encapsulamento 3.5D da AMD integra as tecnologias CoWoS (interposer 2.5D) e SoIC (ligação híbrida 3D) da TSMC, empilhando verticalmente os chips GPU/CPU sobre o chip de I/O através de ligação híbrida Cu-Cu, e depois interconectando-os lado a lado com a memória HBM3 através do interposer CoWoS.

Em dezembro de 2024, a Broadcom anunciou publicamente o primeiro encapsulamento 3.5D XDSiP (eXtreme Dimension System in Package) da indústria. Ele combina tecnologia 2.5D com integração 3D-IC usando tecnologia Face-to-Face (F2F). O núcleo desta plataforma é a tecnologia de empilhamento Face-to-Face (F2F), que utiliza ligação híbrida de cobre sem bumps (HCB) para conectar diretamente o metal superior dos chips superior e inferior, realizando a conexão direta das camadas de metal superiores dos dois chips. Comparada com a tecnologia tradicional Face-to-Back (F2B), a F2F não depende de TSV, pode aumentar o número de conexões de sinal em 7 vezes, reduzir o consumo de energia da interface entre chips em 90% e diminuir a latência entre os componentes de computação, memória e E/S dentro do empilhamento 3D. Em 2026, o primeiro SoC de computação personalizado de 2nm baseado em XDSiP foi entregue à Fujitsu para uso em clusters de supercomputação de IA.

A Intel A tecnologia de encapsulamento EMIB 3.5D combina EMIB 2.5D (interconexão lateral por ponte de silício embutida) com Foveros Direct 3D (empilhamento vertical por ligação híbrida), suportando integração heterogênea flexível de múltiplos chips e compatível com o padrão da indústria UCIe. O SoC da série Intel Data Center GPU Max é o chip heterogêneo de produção em massa mais complexo já criado usando EMIB 3.5D, contendo mais de 100 bilhões de transistores, 47 módulos ativos e 5 nós de processo.

Recentemente, a tecnologia HBC da Qualcomm adota uma arquitetura inovadora de computação próxima à memória dedicada, integrando computação com memória de largura de banda ultra-alta através de uma solução baseada em silício empilhado em 3D, resolvendo o gargalo de movimentação de dados na computação de IA. O AI250, equipado com a primeira geração da tecnologia HBC, pode atingir uma taxa de largura de banda líder da indústria de 133 TB/s por placa, um aumento de 18 vezes na largura de banda efetiva da memória em comparação com o AI200 que usa LPDDR5X; o AI300, equipado com a segunda geração da tecnologia HBC, alcança um salto de desempenho escalonado, com largura de banda efetiva da memória 54 vezes maior que o AI200.

03 Fabricantes chineses de chips de IA optam coletivamente pelo empilhamento 3D

Diante da liderança dos gigantes internacionais em empilhamento 3D e encapsulamento 3.5D, e das restrições na capacidade de processos avançados e no fornecimento de HBM de alto nível na China, os fabricantes chineses de chips de IA estão explorando ativamente a integração vertical de unidades de armazenamento e computação através da tecnologia de empilhamento 3D.

A arquitetura Zixuan do Grupo Unisplendour tem como núcleo a DRAM 3D, sendo pioneira em uma solução de integração heterogênea 3.5D, com largura de banda de armazenamento de até 30 TB/s. Em seu modo de computação próxima à memória PNM, a latência de acesso à memória é reduzida em até 1/18, e simulações mostram que, sob a mesma capacidade computacional, a taxa de tokens é 1,5 a 2 vezes maior que a da série B200 da NVIDIA, podendo ser produzida em massa com base na cadeia de suprimentos nacional chinesa.

O próximo chip de IA da TsingMicro adota empilhamento heterogêneo 3.5D, realizando o empilhamento vertical tridimensional de chips de computação reconfiguráveis com chips de memória DRAM. Através da integração vertical de "chip de computação + chip de memória", sob condições de processos avançados limitados, busca-se um salto de desempenho através da inovação arquitetural. Seu chip reconfigurável 3D de segunda geração adota inovadoramente a tecnologia de integração 3D computação-em-memória + quatro chips Chiplet, atualizando o modo de transmissão planar 2D de pista única do chip tradicional para uma arquitetura tridimensional de "4 pistas de computação + 4 camadas de armazenamento elevado", melhorando significativamente a eficiência de transferência de dados e a densidade computacional, formando vantagens significativas em desempenho, eficiência energética e flexibilidade.

O chip A4E TokenPU 3D da Suanmiao Technology, voltado para inferência de grandes modelos, concluiu oficialmente seu tape-out em 15 de junho, concretizando a implementação de um processador dedicado para grandes modelos, baseado na cadeia de suprimentos nacional chinesa e utilizando arquitetura de empilhamento híbrido 3D. O produto de primeira geração, A4E, empilha verticalmente 8 wafers de memória sobre um wafer de lógica de computação, utilizando tecnologia TSV e bumps para interconexão em escala micrométrica, comprimindo a distância de transmissão entre chips tradicionais de "milímetros" em duas ordens de grandeza, proporcionando uma enorme largura de banda de acesso à memória de 16 TB/s, aliviando efetivamente o problema de falta de dados.

A IntelliFusion anunciou que seu chip de inferência em desenvolvimento está introduzindo uma arquitetura de memória empilhada 3D: utilizando arquitetura de memória empilhada 3D para obter maior largura de banda e menor latência de acesso, rompendo o "gargalo de memória" e melhorando a eficiência da inferência.

A Lingchuan Technology, anteriormente a Divisão de Computação Heterogênea e Chips do Kuaishou Group, concluiu o tape-out de seu próximo chip em abril deste ano. O chip utiliza tecnologia de empilhamento 3D nacional chinesa, sendo pioneiro em uma arquitetura de computação próxima à memória 3D, com otimizações especiais para pontos críticos da indústria, como dissipação de calor, consistência e confiabilidade. Seu primeiro chip, SL200, já vendeu quase cem mil unidades, sendo implantado em empresas de internet como Kuaishou, Alibaba Cloud, Baidu Cloud e Bilibili, cobrindo 99,7% do negócio de transcodificação ao vivo do Kuaishou, atendendo de forma estável a 700 milhões de usuários.

04 Empilhamento 3D precisa superar o abismo do laboratório para a produção em massa

Apesar das vastas perspectivas do empilhamento 3D, a dificuldade de sua engenharia supera em muito a do encapsulamento tradicional.

Em primeiro lugar, a gestão térmica e a dissipação de calor. Em uma arquitetura planar 2D tradicional, o calor gerado pelo die pode ser conduzido diretamente para o spreader de calor e dissipador no topo. No entanto, em uma arquitetura 3D, o calor precisa superar múltiplas barreiras, penetrando verticalmente através de várias camadas de silício, matrizes de TSV, underfill de polímero e interfaces de microbumps. Para estruturas de integração 2.5D, sistemas de resfriamento a ar tradicionais ainda podem operar com potência total de cerca de 300 watts; mas quando o sistema entra em empilhamento vertical 3D real, uma vez que a potência total do encapsulamento excede 350 watts, a dissipação de calor baseada em ar falha completamente, sendo obrigatória a introdução de sistemas de resfriamento líquido e materiais de interface térmica de alto desempenho.

Em segundo lugar, o processo de ligação híbrida e o rendimento. A ligação híbrida de cobre sem bumps (HCB) requer um espaçamento de interconexão <10μm ou mesmo de 1μm, impondo requisitos extremamente altos para planicidade da superfície (CMP), precisão da ligação e correspondência de expansão térmica. Diferenças de material entre a ponte de silício e o substrato podem levar a incompatibilidade de expansão térmica, causando estresse mecânico e rachaduras; o processo de empilhamento 3D é complexo, e a melhoria do rendimento depende do aprimoramento contínuo da precisão da ligação.

Em terceiro lugar, ferramentas EDA e design colaborativo. O volume de dados de design 3D cresce explosivamente, exigindo colaboração profunda entre designers de IC e engenheiros de encapsulamento; as ferramentas EDA existentes têm dificuldade em lidar simultaneamente com a otimização multidimensional de térmica, integridade de sinal e integridade de energia, sendo urgente o desenvolvimento de plataformas de design colaborativo termo-eletro-mecânico. Atualmente, as 3 principais empresas internacionais de EDA possuem algum suporte de ferramentas para design de chips empilhados 3D, enquanto as empresas nacionais chinesas de EDA que oferecem ferramentas de fluxo completo para design de chips empilhados 3D são ainda poucas. Algumas empresas podem fornecer ferramentas pontuais para a etapa de simulação de chips empilhados 3D, mas para ferramentas como roteamento e layout, verificação multi-chip e teste Multi-Die DFT, ainda existe uma grande lacuna na China.

Em quarto lugar, teste e confiabilidade. A complexidade e a alta densidade da tecnologia de encapsulamento de empilhamento 3D de chips tornam o teste e a confiabilidade um grande desafio. É necessário desenvolver novos métodos e equipamentos de teste para garantir a qualidade e a confiabilidade do encapsulamento. Ao mesmo tempo, é necessária uma avaliação de confiabilidade de longo prazo do encapsulamento para garantir seu funcionamento estável em vários ambientes.

Finalmente, a complexidade da montagem e a cadeia de suprimentos. A montagem física envolve o alinhamento preciso de dies nus com diferentes espessuras e diferentes coeficientes de expansão térmica, exigindo um trabalho intensivo de certificação termomecânica; o volume de dados de análise de design supera em muito o do encapsulamento padrão. Isso também leva a custos de fabricação relativamente altos para a tecnologia de encapsulamento de empilhamento 3D de chips, sendo necessário otimizar continuamente os processos de fabricação e reduzir os custos de produção para que a tecnologia de encapsulamento de empilhamento 3D de chips possa ser mais amplamente aplicada em produtos reais.

Na era pós-Moore, os benefícios marginais da miniaturização de transistores estão diminuindo, e o encapsulamento avançado tornou-se a chave para "ir além de Moore". Para os chips de IA chineses, dada a realidade industrial de processos avançados e importação de HBM de alto nível restritos, simplesmente seguir a rota 2.5D+HBM dos gigantes internacionais já não é suficiente para criar competitividade diferenciada. Da arquitetura Zixuan da Unisplendour ao empilhamento heterogêneo 3.5D da TsingMicro, os fabricantes chineses estão provando: quando a expansão planar atinge seu limite físico, crescer para cima, redefinindo a forma de integração dos chips em três dimensões, pode ser exatamente a chave para quebrar o "gargalo de memória" e o "gargalo de área", alcançando uma ultrapassagem na curva na corrida global de capacidade computacional de IA.

China

Informação e Comunicação Engenharia de circuitos integrados

Este boletim é uma compilação e reprodução de informações de parceiros estratégicos e da internet global, destinado apenas para troca de informações entre leitores. Em caso de infração ou outros problemas, por favor, informe-nos imediatamente, e este site fará as devidas modificações ou exclusões. A reprodução deste artigo é estritamente proibida sem autorização formal. E-mail: news@wedoany.com

Anterior：NVIDIA dos EUA registra receita de US$ 2,1 bilhões com switches Ethernet no 1º trimestre, liderando o mercado

Próximo：Siemens, da Alemanha, investe 300 milhões de euros para expandir a produção de equipamentos de distribuição elétrica para data centers de IA