Xiaomi da China lança HarnessX, desempenho de agentes de IA melhora em média 14,5%_Boletins

Xiaomi da China lança HarnessX, desempenho de agentes de IA melhora em média 14,5%

2026-06-25 10:16

Favoritos

De acordo com pt.wedoany.com-Pesquisadores da Xiaomi lançaram o framework HarnessX, com o objetivo de resolver o gargalo de engenharia onde o desempenho de agentes de IA empresariais é limitado pelo "harness" (suporte). O framework trata o harness de IA como um objeto componível e melhora autonomamente seu código, elevando o desempenho de sistemas de IA em áreas como engenharia de software e interação web.

Atualmente, os harnesses de aplicações de IA são, em sua maioria, estáticos e feitos manualmente, sem capacidade de melhoria automática com base em dados de execução, o que se torna um fator crítico que limita os agentes de IA a concluir tarefas complexas e de longo prazo. O desenvolvimento tradicional de harnesses enfrenta três grandes desafios: primeiro, são estáticos e exigem reescrita manual; segundo, o emaranhamento arquitetônico faz com que ajustes em um componente possam prejudicar outros; terceiro, o harness e o modelo base são otimizados de forma isolada, e os trajetos de execução são frequentemente descartados.

O HarnessX resolve esses gargalos através de uma "fundição unificada de harnesses". Sua inovação central é tratar o harness como um "objeto de primeira classe", ou seja, uma entidade independente, serializável, modular e substituível, separando assim a configuração do modelo da configuração do harness. Esse método decompõe o comportamento do agente em componentes como montagem de contexto, gerenciamento de memória, ecossistema de ferramentas, fluxo de controle e observabilidade, com cada comportamento atuando como um "processador" inserido nos ganchos do ciclo de vida do harness.

Estrutura do HarnessX

Para automatizar a otimização da estrutura modular, o HarnessX introduz o AEGIS, um motor evolutivo orientado por trajetos. Esse motor trata a adaptação do harness como um problema de aprendizado por reforço e, para lidar com patologias como hacking de recompensa, esquecimento catastrófico e exploração insuficiente, projeta um pipeline de quatro estágios que inclui digestor, planejador, evolucionário e crítico com porta. O digestor comprime os trajetos de execução em resumos estruturados, o planejador analisa os resumos para explorar mudanças estruturais, o evolucionário gera edições e testes em nível de código, e o crítico com porta previne hacking de recompensa e esquecimento catastrófico.

AEGIS

O HarnessX também implementa a coevolução do harness com o modelo. Através do algoritmo GRPO (Otimização de Política Relativa em Grupo) entre harnesses, ele agrega trajetos de execução gerados em diferentes versões do harness como sinais de aprendizado por reforço para o modelo, permitindo que o modelo internalize estratégias avançadas, como o uso de novas ferramentas.

Coevolução harness-modelo

Os testes práticos foram realizados em cinco benchmarks, abrangendo engenharia de software, diálogo de atendimento ao cliente em múltiplas rodadas, navegação web, raciocínio multi-etapas aberto e planejamento incorporado. Nos testes, um meta-agente impulsionado pelo Claude Opus 4.6 foi responsável por analisar logs e escrever código, enquanto os agentes de tarefa foram desempenhados pelo Claude Sonnet 4.6, GPT-5.4 e o modelo de peso aberto Qwen3.5-9B. Os resultados mostraram que o harness evolutivo dinâmico melhorou o desempenho em 14 das 15 combinações modelo-benchmark, com um ganho absoluto médio de +14,5% no desempenho. Entre eles, o modelo de código aberto mais fraco, Qwen3.5-9B, obteve o maior benefício, com um salto de +44,0% no benchmark de planejamento incorporado ALFWorld e +18,2% no benchmark de engenharia de software SWE-bench Verified. Quando os dados gerados pelo harness evolutivo foram usados para treinar o modelo base, houve um ganho adicional médio de +4,7% no desempenho.

Desempenho do HarnessX

Atualmente, o HarnessX depende de modelos de fronteira fechados e poderosos (como o Claude Opus) como meta-agentes para reescrever o código do harness, e a capacidade de meta-agente de modelos de peso aberto ainda precisa ser testada. Além disso, se o modelo subjacente não conseguir executar fluxos de trabalho complexos, o framework não conseguirá melhorar a capacidade geral. Apesar disso, os pesquisadores planejam lançar o código em futuras atualizações, e o HarnessX oferece aos profissionais uma nova abordagem focada na otimização da engenharia de harness, em vez de simplesmente expandir o modelo.

Este texto foi elaborado por Wedoany. Qualquer citação por IA deve indicar a fonte “Wedoany”. Em caso de infração ou outros problemas, informe-nos prontamente, por favor. O conteúdo será corrigido ou removido. E-mail: news@wedoany.com

China