De acordo com pt.wedoany.com-A Microsoft lançou na terça-feira o framework de código aberto ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing, Pontuação Adaptativa Orientada por Especificações para Avaliação e Testes de Regressão), com o objetivo de simplificar o processo de teste e avaliação do comportamento de aplicações de IA.
O framework utiliza tecnologia de inteligência artificial para converter descrições de alto nível em linguagem natural sobre objetivos, estratégias ou comportamentos esperados em casos de teste executáveis e pontuáveis. O ASSERT recebe descrições em linguagem comum sobre o comportamento esperado e as estratégias do modelo de IA, transformando-as num conjunto estruturado de comportamentos aceitáveis e inaceitáveis, gerando cenários de problemas e casos de teste, executando esses casos no sistema alvo e pontuando os resultados. O framework também regista o caminho percorrido pelo sistema de IA, incluindo ações intermédias e chamadas de ferramentas, facilitando a identificação do local onde ocorreu a falha pelos programadores.
Os programadores podem fornecer contexto adicional do sistema, ferramentas e restrições para personalizar a cobertura da avaliação. Por exemplo, um programador pode especificar que um agente de IA de pesquisa documental não deve enviar e-mails a pessoas externas à empresa, deve limitar informações confidenciais ao âmbito dos executivos de topo e fornecer resumos concisos considerando o contexto anterior. O ASSERT utilizará estas regras para gerar casos de teste, verificando continuamente se o sistema cumpre essas regras.

A Microsoft afirma que o ASSERT preenche a lacuna que avaliações mais amplas e genéricas não conseguem cobrir quando o comportamento do modelo de IA precisa ser moldado com base no contexto, nas políticas e nas ferramentas da aplicação ou produto. "Uma coisa que aprendemos é que a avaliação é absolutamente crucial para tomar decisões corretas", disse Sarah Bird, Diretora de Produto Principal de IA Responsável da Microsoft. "Porque sem compreender o comportamento do sistema de IA, é difícil saber se ele atende aos padrões da organização... Descobrimos que, se realmente quisermos ter um sistema confiável, devemos avaliar mais dimensões específicas da aplicação." Bird afirmou que o ASSERT pode ser utilizado durante a construção do sistema, após a implementação e até mesmo em monitorização contínua para realizar avaliações.
Este lançamento ocorre num momento em que a capacidade de avaliação da indústria de IA está gradualmente a melhorar. À medida que a capacidade dos modelos aumenta, os investigadores começam a focar-se em testes repetíveis e verificações de regressão. Iniciativas como o HELM da Universidade de Stanford, o AILuminate da MLCommons e a equipa de avaliação METR lançaram benchmarks para medir o comportamento dos modelos em diferentes condições.
Este texto foi elaborado por Wedoany. Qualquer citação por IA deve indicar a fonte “Wedoany”. Em caso de infração ou outros problemas, informe-nos prontamente, por favor. O conteúdo será corrigido ou removido. E-mail: news@wedoany.com









