WEKA (EUA) valida raciocínio de contexto longo na Oracle Cloud, com throughput 10 vezes maior
2026-06-10 11:30
Favoritos

De acordo com pt.wedoany.com-A empresa americana de dados e memória para infraestrutura de IA, WEKA, anunciou em 9 de junho de 2026 que sua plataforma NeuralMesh, combinada com o Augmented Memory Grid, concluiu testes de benchmark em escala de produção na infraestrutura de nuvem Oracle Cloud Infrastructure (OCI). Os resultados mostram que, sem aumentar GPUs ou nós de cluster, a solução pode aumentar o número de usuários simultâneos em cenários de raciocínio de contexto longo em aproximadamente 10 vezes, o throughput de tokens em cerca de 10 vezes e o número de tokens gerados por GPU em cerca de 7 vezes. Os testes foram realizados em um cluster OCI de 9 nós com H100 bare metal, validando uma janela de contexto de 100.000 tokens.

Este teste focou no raciocínio de contexto longo em nível empresarial. A WEKA divulgou que, com o NeuralMesh combinado ao Augmented Memory Grid, o número de usuários simultâneos aumentou de aproximadamente 600 na configuração apenas com DRAM para mais de 5.000. Em termos de throughput de tokens, a solução atingiu cerca de 2 milhões de tokens por segundo, enquanto a linha de base apenas com DRAM ficou abaixo de 200.000 tokens por segundo. Em um teste de uma hora com 2.400 usuários, o Augmented Memory Grid atendeu cerca de 5 bilhões de tokens, contra aproximadamente 700 milhões de tokens na linha de base apenas com DRAM.

O ambiente de teste utilizou 9 nós OCI bare metal H100, cada um configurado com 8 GPUs H100, totalizando 72 GPUs. De acordo com o blog técnico da Oracle, cada nó também possui 16 unidades NVMe Gen4 e 2 placas de rede RDMA de 200Gb. O Augmented Memory Grid expandiu o cache NVMe disponível para 287 TiB, enquanto o ambiente de linha de base tinha cerca de 8,64 TiB de DRAM disponível. Cada usuário simulado foi configurado com 100.000 tokens de entrada e 100 tokens de resposta, para simular a pressão de cache em documentos longos, sessões de múltiplas rodadas e tarefas de agente.

O ponto crucial deste teste não é apenas o número de GPUs. O raciocínio de contexto longo gera continuamente um cache KV durante a execução. Quando a janela de contexto se expande para o nível de 100.000 tokens, a capacidade do cache e a taxa de acertos afetam o throughput, a latência e a eficiência de utilização da GPU. Na configuração apenas com DRAM, quando o cache satura, é fácil ocorrer eliminação de cache e recálculo repetido de preenchimento. Para aplicações de busca, resumo, assistência de código e agentes de múltiplas rodadas, isso resulta em custos de serviço mais altos e tempos de resposta menos estáveis.

A abordagem do Augmented Memory Grid é desacoplar o cache KV da memória local da GPU e da DRAM, colocando-o em um repositório de tokens de alto desempenho em nível de cluster. A WEKA explica na página do produto OCI que a solução é baseada no NeuralMesh e NeuralMesh Axon, transferindo continuamente dados de cache key-value entre a memória da GPU e o armazenamento flash via RDMA e GPUDirect Storage, utilizando a infraestrutura de GPU bare metal da OCI para expandir a camada de cache sem adicionar DRAM física.

O blog técnico da Oracle afirma que esta rodada de testes passou da validação inicial de TTFT para a validação de cargas de trabalho relacionadas à produção, cobrindo densidade de concorrência, throughput sustentado, persistência de cache e estabilidade do serviço sob alta carga. O blog também mostra que o teste comparou a linha de base do serviço vLLM padrão com HBM+DRAM e a solução de expansão de cache com o Augmented Memory Grid. Os resultados mostram que, quando o cache DRAM atinge seu limite, o tempo de resposta da linha de base flutua, enquanto a solução de expansão de cache mantém um nível de serviço mais estável sob maior concorrência.

A WEKA afirma que o NeuralMesh com Augmented Memory Grid já está disponível para clientes e foi lançado no Oracle Cloud Marketplace, sendo a OCI sua parceira de lançamento na nuvem. Para clientes que implantam aplicações empresariais de IA, este resultado aponta para uma questão prática: com o rápido aumento da demanda por raciocínio de contexto longo, a expansão da capacidade computacional não é a única opção; a expansão do cache, o caminho dos dados e o escalonamento do cluster também afetam o custo por token e a capacidade do serviço online.

Este texto foi elaborado por Wedoany. Qualquer citação por IA deve indicar a fonte “Wedoany”. Em caso de infração ou outros problemas, informe-nos prontamente, por favor. O conteúdo será corrigido ou removido. E-mail: news@wedoany.com