Um mês após o lançamento, o modelo Mythos da Anthropic dos EUA evolui em capacidades; testes do Instituto de Segurança de IA do Reino Unido mostram que supera o GPT-5.5_Boletins

Um mês após o lançamento, o modelo Mythos da Anthropic dos EUA evolui em capacidades; testes do Instituto de Segurança de IA do Reino Unido mostram que supera o GPT-5.5

2026-05-15 17:10

Favoritos

De acordo com pt.wedoany.com-O Instituto de Segurança de IA do Reino Unido divulgou, em 14 de maio, os resultados mais recentes de testes mostrando que o modelo de fronteira da Anthropic, Claude Mythos Preview, após receber um checkpoint de versão atualizada, teve suas capacidades de segurança cibernética novamente aprimoradas, completando com sucesso, pela primeira vez, dois campos de treinamento completos de ataque cibernético. Em avaliações anteriores do AISI, o GPT-5.5 havia superado ligeiramente o Mythos em tarefas de nível especialista, com uma taxa de aprovação de 71,4% contra 68,6% do Mythos. Após esta atualização, o Mythos, em uma tarefa de simulação de penetração em rede interna corporativa de 32 passos, obteve sucesso em 6 de 10 tentativas, ampliando significativamente a diferença em relação ao GPT-5.5.

O Mythos foi oficialmente anunciado pela Anthropic em 7 de abril de 2026, posicionado como um modelo de um novo patamar que transcende a série Opus, com o codinome interno "Capybara", representando o sistema de IA mais poderoso já construído pela Anthropic. A Anthropic decidiu não disponibilizar o modelo ao público, mas sim fornecer acesso controlado a mais de 40 parceiros-chave de infraestrutura e segurança cibernética por meio do programa Project Glasswing, para descoberta e correção defensiva de vulnerabilidades. Cerca de um mês após o lançamento do Mythos Preview, o AISI revelou que recebeu um checkpoint de versão atualizada do modelo, cujo desempenho em tarefas de segurança cibernética é ainda mais forte que o anterior, tendo inclusive completado com sucesso, pela primeira vez, o exercício de ataque a sistemas de controle industrial "Cooling Tower", que nenhum modelo anterior havia conseguido superar.

O sistema de testes do AISI é construído em torno de um "parâmetro de intervalo de tempo", medindo os limites da capacidade do modelo de IA ao estimar o tempo necessário para um especialista humano em segurança cibernética completar uma tarefa específica. Dentro dessa estrutura, o Mythos, na tarefa de penetração em rede interna corporativa simulada de 32 passos chamada "The Last Ones", obteve sucesso em 6 de 10 tentativas, cobrindo integralmente o processo de ataque completo, desde a invasão inicial, passando pelo movimento lateral, até a conquista do objetivo final. O AISI estima que um especialista humano levaria cerca de 20 horas para completar a mesma tarefa. O GPT-5.5 obteve sucesso em 3 de 10 tentativas na mesma tarefa. De forma ainda mais emblemática, o Mythos superou pela primeira vez o exercício "Cooling Tower", que simula uma tentativa de ataque ao software de controle de uma usina de energia, com o Mythos obtendo sucesso em 3 de 10 tentativas.

O AISI também divulgou simultaneamente os resultados dos testes do GPT-5.5. O GPT-5.5 alcançou uma taxa média de aprovação de 71,4% nas tarefas de segurança cibernética de nível especialista do AISI, ligeiramente superior aos 68,6% da versão anterior do Mythos, situando ambos em níveis próximos dentro do limite de 2,5 milhões de tokens. No entanto, em testes mais próximos de cenários reais de invasão, como simulações de ataques em múltiplas etapas, o Mythos demonstrou uma capacidade notável de completar ataques de cadeia longa de forma coerente. O AISI apontou que o GPT-5.5 e o Mythos atingem níveis de desempenho semelhantes nas avaliações de segurança cibernética, e considera que a capacidade de segurança cibernética do Mythos não é um avanço específico de um único modelo, mas sim um subproduto do aprimoramento geral da autonomia de longo prazo, raciocínio e codificação.

O AISI atualizou simultaneamente a estimativa do ciclo de duplicação das capacidades cibernéticas dos modelos de fronteira. Em novembro de 2025, o instituto estimou que a duração das tarefas de segurança cibernética que os modelos podem completar dobra a cada 8 meses; em fevereiro de 2026, com base no progresso após o surgimento dos modelos de raciocínio no final de 2024, esse ciclo foi comprimido para 4,7 meses. O desempenho prático observado agora no Mythos e no GPT-5.5 já excede significativamente a linha de tendência de duplicação de 4,7 meses. O AISI ainda não tem certeza se isso significa o surgimento de uma nova tendência de crescimento mais acentuada ou apenas um salto de curto prazo.

Logan Graham, responsável pelos testes de equipe vermelha de fronteira na Anthropic, confirmou que o checkpoint do Mythos usado neste teste do AISI é exatamente a versão implementada simultaneamente com o Project Glasswing. As capacidades ofensivas e defensivas observadas externamente não são de um protótipo de laboratório, mas sim de um modelo em nível de produção em operação. Anteriormente, o Mythos já havia gerado ampla atenção no campo de descoberta de vulnerabilidades, com a Mozilla utilizando-o para encontrar e corrigir 271 vulnerabilidades de segurança no Firefox. A Anthropic divulgou em seu cartão de sistema que o Mythos Preview ajudou a identificar milhares de vulnerabilidades de dia zero de alto risco durante os testes, abrangendo todos os principais sistemas operacionais e navegadores.

Este texto foi elaborado por Wedoany. Qualquer citação por IA deve indicar a fonte “Wedoany”. Em caso de infração ou outros problemas, informe-nos prontamente, por favor. O conteúdo será corrigido ou removido. E-mail: news@wedoany.com

Reino Unido

EUA

Informação e Comunicação Engenharia de inteligência artificial

Este boletim é uma compilação e reprodução de informações de parceiros estratégicos e da internet global, destinado apenas para troca de informações entre leitores. Em caso de infração ou outros problemas, por favor, informe-nos imediatamente, e este site fará as devidas modificações ou exclusões. A reprodução deste artigo é estritamente proibida sem autorização formal. E-mail: news@wedoany.com

Anterior：Após o feriado do Dia do Trabalho, o mercado siderúrgico chinês entra na época de alta demanda, com os preços do aço oscilando em tendência de alta

Próximo：Piaggio Fast Forward, dos EUA, lança novo robô de carga temático