Um mês após o lançamento, o modelo Mythos da Anthropic dos EUA evolui em capacidades; testes do Instituto de Segurança de IA do Reino Unido mostram que supera o GPT-5.5
2026-05-15 17:10
Favoritos

De acordo com pt.wedoany.com-O Instituto de Segurança de IA do Reino Unido divulgou, em 14 de maio, os resultados mais recentes de testes mostrando que o modelo de fronteira da Anthropic, Claude Mythos Preview, após receber um checkpoint de versão atualizada, teve suas capacidades de segurança cibernética novamente aprimoradas, completando com sucesso, pela primeira vez, dois campos de treinamento completos de ataque cibernético. Em avaliações anteriores do AISI, o GPT-5.5 havia superado ligeiramente o Mythos em tarefas de nível especialista, com uma taxa de aprovação de 71,4% contra 68,6% do Mythos. Após esta atualização, o Mythos, em uma tarefa de simulação de penetração em rede interna corporativa de 32 passos, obteve sucesso em 6 de 10 tentativas, ampliando significativamente a diferença em relação ao GPT-5.5.

O Mythos foi oficialmente anunciado pela Anthropic em 7 de abril de 2026, posicionado como um modelo de um novo patamar que transcende a série Opus, com o codinome interno "Capybara", representando o sistema de IA mais poderoso já construído pela Anthropic. A Anthropic decidiu não disponibilizar o modelo ao público, mas sim fornecer acesso controlado a mais de 40 parceiros-chave de infraestrutura e segurança cibernética por meio do programa Project Glasswing, para descoberta e correção defensiva de vulnerabilidades. Cerca de um mês após o lançamento do Mythos Preview, o AISI revelou que recebeu um checkpoint de versão atualizada do modelo, cujo desempenho em tarefas de segurança cibernética é ainda mais forte que o anterior, tendo inclusive completado com sucesso, pela primeira vez, o exercício de ataque a sistemas de controle industrial "Cooling Tower", que nenhum modelo anterior havia conseguido superar.

O sistema de testes do AISI é construído em torno de um "parâmetro de intervalo de tempo", medindo os limites da capacidade do modelo de IA ao estimar o tempo necessário para um especialista humano em segurança cibernética completar uma tarefa específica. Dentro dessa estrutura, o Mythos, na tarefa de penetração em rede interna corporativa simulada de 32 passos chamada "The Last Ones", obteve sucesso em 6 de 10 tentativas, cobrindo integralmente o processo de ataque completo, desde a invasão inicial, passando pelo movimento lateral, até a conquista do objetivo final. O AISI estima que um especialista humano levaria cerca de 20 horas para completar a mesma tarefa. O GPT-5.5 obteve sucesso em 3 de 10 tentativas na mesma tarefa. De forma ainda mais emblemática, o Mythos superou pela primeira vez o exercício "Cooling Tower", que simula uma tentativa de ataque ao software de controle de uma usina de energia, com o Mythos obtendo sucesso em 3 de 10 tentativas.

O AISI também divulgou simultaneamente os resultados dos testes do GPT-5.5. O GPT-5.5 alcançou uma taxa média de aprovação de 71,4% nas tarefas de segurança cibernética de nível especialista do AISI, ligeiramente superior aos 68,6% da versão anterior do Mythos, situando ambos em níveis próximos dentro do limite de 2,5 milhões de tokens. No entanto, em testes mais próximos de cenários reais de invasão, como simulações de ataques em múltiplas etapas, o Mythos demonstrou uma capacidade notável de completar ataques de cadeia longa de forma coerente. O AISI apontou que o GPT-5.5 e o Mythos atingem níveis de desempenho semelhantes nas avaliações de segurança cibernética, e considera que a capacidade de segurança cibernética do Mythos não é um avanço específico de um único modelo, mas sim um subproduto do aprimoramento geral da autonomia de longo prazo, raciocínio e codificação.

O AISI atualizou simultaneamente a estimativa do ciclo de duplicação das capacidades cibernéticas dos modelos de fronteira. Em novembro de 2025, o instituto estimou que a duração das tarefas de segurança cibernética que os modelos podem completar dobra a cada 8 meses; em fevereiro de 2026, com base no progresso após o surgimento dos modelos de raciocínio no final de 2024, esse ciclo foi comprimido para 4,7 meses. O desempenho prático observado agora no Mythos e no GPT-5.5 já excede significativamente a linha de tendência de duplicação de 4,7 meses. O AISI ainda não tem certeza se isso significa o surgimento de uma nova tendência de crescimento mais acentuada ou apenas um salto de curto prazo.

Logan Graham, responsável pelos testes de equipe vermelha de fronteira na Anthropic, confirmou que o checkpoint do Mythos usado neste teste do AISI é exatamente a versão implementada simultaneamente com o Project Glasswing. As capacidades ofensivas e defensivas observadas externamente não são de um protótipo de laboratório, mas sim de um modelo em nível de produção em operação. Anteriormente, o Mythos já havia gerado ampla atenção no campo de descoberta de vulnerabilidades, com a Mozilla utilizando-o para encontrar e corrigir 271 vulnerabilidades de segurança no Firefox. A Anthropic divulgou em seu cartão de sistema que o Mythos Preview ajudou a identificar milhares de vulnerabilidades de dia zero de alto risco durante os testes, abrangendo todos os principais sistemas operacionais e navegadores.

Este texto foi elaborado por Wedoany. Qualquer citação por IA deve indicar a fonte “Wedoany”. Em caso de infração ou outros problemas, informe-nos prontamente, por favor. O conteúdo será corrigido ou removido. E-mail: news@wedoany.com
Recomendações
Elon Musk, CEO da Tesla; Jensen Huang, CEO da NVIDIA; Tim Cook, CEO da Apple; Cristiano Amon, CEO da Qualcomm, entre outros, manifestaram recentemente: Grandes expectativas em relação à economia chinesa e esperança de fortalecer a cooperação com a China
2026-05-15
Rede totalmente fotónica IOWN da NTT Japão entra em operação comercial no final do ano, três indicadores-chave de desempenho apontam para o dilema do consumo energético em centros de dados de IA
2026-05-15
Projeto AI IQ publica ranking de QI de grandes modelos de linguagem: GPT-5.5 lidera, Opus 4.7 segue de perto
2026-05-15
A Calix dos EUA expande a plataforma Calix One para 50G-PON, impulsionando a implementação de redes de fibra óptica de próxima geração
2026-05-15
Pesquisa conjunta da IBM dos EUA e IndiaAI da Índia: Inteligência Artificial poderá contribuir com mais de 500 mil milhões de dólares para a economia indiana até 2030
2026-05-15
Yuanbao da Tencent na China é atualizado novamente, adicionando resumo e análise inteligentes de registros de conversas do WeChat
2026-05-15
A Intuitive Machines, dos EUA, investe 37 milhões de libras na aquisição da estação terrestre britânica Goonhilly, construindo uma rede de comunicações lunares
2026-05-15
O CEO da NVIDIA, Jensen Huang, visita a China com Trump e afirma que a inteligência artificial já trouxe novas oportunidades para o país
2026-05-15
IQM da Finlândia submete declaração de registro F-4 para listagem na Nasdaq, tornando-se a primeira empresa europeia de computação quântica de capital aberto
2026-05-15
Ericsson da Suécia lança o dispositivo de rede sem fio de longa distância Cradlepoint W2255, oferecendo gestão proativa de conectividade
2026-05-15