Microsoft lança framework de código aberto ASSERT para avaliação de agentes de IA empresariais
2026-06-12 11:58
Favoritos

De acordo com pt.wedoany.com-A Microsoft lançou recentemente um framework de avaliação de IA de código aberto, projetado para transformar requisitos em linguagem natural em testes executáveis, a fim de fortalecer as capacidades de governança de inteligência artificial das empresas. O framework, denominado ASSERT (Avaliação e Teste de Regressão Orientados por Especificações Adaptativas), gera automaticamente cenários de avaliação, conjuntos de dados, métricas e scorecards com base em especificações escritas, requisitos de produto e documentos de governança. Em uma postagem de blog anunciando o lançamento, a Microsoft afirmou que muitas organizações têm dificuldade em verificar sistematicamente o comportamento de seus agentes antes de colocá-los em produção.

IA

Os agentes podem falhar de maneiras difíceis de detectar, como desviar-se de políticas estabelecidas, produzir saídas inseguras em casos extremos ou apresentar desempenho diferente em produção em comparação com os testes. Benchmarks genéricos não conseguem capturar essas falhas, pois não são construídos em torno de políticas, agentes ou casos de uso específicos. Em vez de exigir que os desenvolvedores criem manualmente suítes de avaliação, o ASSERT converte intenções escritas em testes reutilizáveis que podem ser integrados ao fluxo de desenvolvimento de IA.

Com o ASSERT, a Microsoft entra no mercado cada vez mais competitivo de avaliação de IA. Este mercado já conta com plataformas como LangSmith da LangChain, Braintrust, Patronus AI, Galileo, Phoenix da Arize AI e Promptfoo, que ajudam empresas a realizar benchmarks, monitorar e validar aplicações de grandes modelos de linguagem. O lançamento ocorre em um momento em que as empresas aceleram a implantação de agentes de IA, mas práticas formais de avaliação ainda são exceção, e não regra. Anushree Verma, analista diretora sênior da Gartner, destacou que atualmente 99% das organizações não avaliam nenhum agente de IA antes da produção. A próxima vantagem competitiva do setor dependerá mais da eficácia com que as organizações simulam e testam sob pressão seus agentes de IA antes da implantação, do que dos avanços nos modelos de raciocínio. A Gartner estima que, até 2029, mais de 75% dos agentes especializados em domínios regulados que não forem projetados com simulação de agentes não conseguirão entregar valor.

A Forrester acredita que as empresas estão migrando para avaliações comportamentais, mas a maioria das organizações ainda não as adotou como requisito formal de produção. Biswajeet Mahapatra, analista principal da Forrester, afirmou que as avaliações comportamentais são aplicadas de forma inconsistente, em vez de serem vistas como um gate formal de produção. De acordo com dados da Forrester, mais de 45% das organizações já estão aplicando agentes de IA, e outros 25% estão em fase piloto, mas muitas ainda enfrentam dificuldades para escalar devido à imaturidade da governança e à baixa rigorosidade operacional.

A Microsoft afirma que o ASSERT usa grandes modelos de linguagem como juízes e, em validações internas da empresa, as avaliações geradas pelo modelo apresentaram uma taxa de concordância de 80% a 90% com revisores humanos. Biswajeet Mahapatra, analista principal da Forrester, observou que essa taxa de concordância ajuda a automatizar grande parte dos testes de IA, mas ainda não é suficiente como medida de controle independente para governança ou conformidade. As empresas devem adotar uma supervisão em camadas, permitindo que a IA avalie a IA em larga escala, enquanto os humanos mantêm a responsabilidade de supervisão para cenários de alto risco, regulados ou ambíguos. Os compradores também devem estar atentos a questões de viés, problemas de alinhamento e à dependência excessiva de um único modelo que atua tanto como gerador quanto como avaliador.

A Microsoft lançou o ASSERT sob a licença de código aberto MIT, permitindo que as organizações inspecionem, modifiquem e integrem o framework em seus fluxos de desenvolvimento de IA existentes. Biswajeet Mahapatra, analista principal da Forrester, afirmou que o código aberto reduz o risco de dependência de fornecedor e permite ampla interoperabilidade entre ecossistemas de modelos, mas não elimina completamente problemas de confiança ou conflitos de interesse, pois o fornecedor original ainda influencia como os critérios de avaliação, a lógica de pontuação e a definição de comportamento aceitável são codificados. As empresas não devem depender de um único framework de avaliação, mas sim validar sistemas de IA com múltiplas abordagens de avaliação e manter a propriedade de suas estratégias internas de avaliação.

Este texto foi elaborado por Wedoany. Qualquer citação por IA deve indicar a fonte “Wedoany”. Em caso de infração ou outros problemas, informe-nos prontamente, por favor. O conteúdo será corrigido ou removido. E-mail: news@wedoany.com