Microsoft Research lança Memora, reduzindo consumo de tokens em 98%_Boletins

Microsoft Research lança Memora, reduzindo consumo de tokens em 98%

2026-07-01 15:01

Favoritos

De acordo com pt.wedoany.com-A Microsoft Research desenvolveu um sistema de memória de longo prazo chamado Memora, projetado para fornecer capacidades de memória mais escaláveis e confiáveis para agentes de IA, ao desacoplar o conteúdo da memória do método de recuperação.

Cérebro de IA em uma tela de computador

À medida que os agentes de IA precisam manter memória contextual por semanas ou meses, em vez de apenas processar uma única sessão, os métodos tradicionais de memória tendem a causar fragmentação de informações e lentidão na recuperação. A Microsoft Research afirma que o Memora, ao desacoplar o conteúdo da memória do método de recuperação, pode reduzir o uso de tokens de contexto em até 98%, mantendo ou superando a precisão do contexto completo.

Atualmente, a implantação de longo prazo da IA enfrenta gargalos no sistema de memória. Os modelos modernos de linguagem de grande escala começam cada sessão do zero; conversas longas exigem a leitura repetida de todo o histórico, novas informações são armazenadas como texto bruto ou resumos, e detalhes críticos podem ser perdidos.

As soluções existentes têm limitações. O sistema Mem0 extrai fatos atômicos de diálogos, o método de Geração Aumentada por Recuperação (RAG) indexa fragmentos de texto, e sistemas de memória baseados em grafos (como Zep, GraphRAG) constroem estruturas por meio de relações entre entidades. No entanto, esses métodos caem em dois extremos: sistemas de fragmentação de conteúdo (como RAG, Mem0) retêm detalhes, mas perdem a coerência narrativa; sistemas de abstração de granularidade grossa comprimem experiências, mas perdem restrições e detalhes numéricos; sistemas baseados em grafos exigem ontologias rígidas e a recuperação depende do próprio conteúdo.

A arquitetura do Memora resolve esses problemas ao desacoplar o conteúdo armazenado do método de recuperação. Cada entrada de memória contém duas partes: a abstração principal é uma frase de 6 a 8 palavras, que captura o conteúdo básico da memória; o valor da memória contém o conteúdo rico em si. Novas informações sobre o mesmo tópico são mescladas em entradas de memória existentes, evitando fragmentação. Além disso, o sistema introduz âncoras de pistas, que são rótulos curtos e sensíveis ao contexto extraídos de cada valor de memória, fornecendo caminhos de acesso alternativos para a mesma memória.

O Memora também inclui um recuperador guiado por estratégia, que não retorna os k itens mais semelhantes de uma só vez, mas otimiza iterativamente a consulta por meio de âncoras de pistas, apresentando memórias relevantes, mas não semelhantes, e decide quando parar. Sanchit Vir Gogia, analista-chefe da Greyhound Research, afirma que o Memora rejeita o atalho de equiparar recuperação a memória, separando os detalhes ricos da memória dos identificadores de busca, tornando a recuperação um ato de navegação.

A Microsoft avaliou o Memora em dois benchmarks: LoCoMo (média de 600 rodadas de diálogo) e LongMemEval (usando 115.000 tokens de contexto). Os resultados dos testes mostram que o Memora alcançou 86,3% de precisão de avaliação LLM no LoCoMo e 87,4% no LongMemEval, superando RAG, Mem0, Nemori, Zep, LangMem e raciocínio de contexto completo. O número de entradas de memória armazenadas pelo Memora por diálogo (344) é cerca de metade do Mem0 (651), enquanto reduz o consumo de tokens em até 98% em comparação com o raciocínio de contexto completo.

Gogia aponta que o menor consumo de tokens não equivale diretamente a custos de infraestrutura mais baixos. A redução de contexto nos benchmarks não significa que as faturas das empresas cairão 98%; os custos reais também incluem construção de memória, indexação, armazenamento e logs de auditoria. O modo de recuperação estratégica mais forte do Memora leva cerca de cinco a seis segundos por consulta, enquanto o modo semântico mais simples leva menos de um segundo; a economia de tokens de prompt é parcialmente compensada pela latência de recuperação e raciocínio adicional.

O Memora é atualmente um projeto ativo da Microsoft Research, e o código de pesquisa relacionado foi disponibilizado publicamente no GitHub. Gogia sugere que líderes de TI devem tratar o Memora como pesquisa de arquitetura, não como software pronto para produção, e precisam ter cautela até que seu código seja totalmente verificável, sustentável e suportável. Além disso, as empresas precisam estabelecer políticas de governança e conformidade para garantir o gerenciamento seguro e a auditabilidade da memória de IA, incluindo definir quem pode escrever ou ler memórias, por quanto tempo as memórias duram e como os auditores podem reconstruí-las, para atender aos requisitos da Lei de Inteligência Artificial da UE e da Lei de Proteção de Dados Pessoais Digitais da Índia.

EUA

Informação e Comunicação Engenharia de inteligência artificial

Este boletim é uma compilação e reprodução de informações de parceiros estratégicos e da internet global, destinado apenas para troca de informações entre leitores. Em caso de infração ou outros problemas, por favor, informe-nos imediatamente, e este site fará as devidas modificações ou exclusões. A reprodução deste artigo é estritamente proibida sem autorização formal. E-mail: news@wedoany.com

Anterior：NASA e AWS transmitem vídeo 4K ao vivo da órbita lunar na missão Artemis 2

Próximo：Vodafone Espanha testa comunicação prioritária 5G SA para a polícia durante o Tour de France