De acordo com pt.wedoany.com-A Anthropic lançou o modelo Mythos em abril (como parte do Projeto Glasswing, destinado a descobrir e corrigir vulnerabilidades na infraestrutura da internet) e, posteriormente, divulgou sua versão restrita, o Fable 5. A Anthropic deixou claro que o Fable não oferecerá suporte a certas áreas de pesquisa de alto risco, como segurança cibernética, biologia e química. Quando surgirem solicitações relacionadas a esses domínios, o modelo será automaticamente rebaixado do Fable para o nível de inteligência Opus, informando ao usuário que o rebaixamento está ocorrendo.
O cerne da controvérsia reside no fato de que, para pesquisadores que trabalham em áreas como design de chips superpotentes ou modelos de linguagem de grande escala de ponta, o processo de rebaixamento não é visível para o usuário. A Anthropic descreveu esse comportamento em seu cartão de sistema de 319 páginas, mas não há qualquer indicação na interface do usuário, que, na prática, recebe saídas de nível Opus. A revista Fortune descreveu essa prática como "sabotagem secreta", enquanto a Wired noticiou que tal abordagem pode prejudicar a pesquisa em IA. O Mythos e o Glasswing são muito mais poderosos que a ferramenta Claude Security da Anthropic, projetada para operar no Opus, que ainda pode escanear bases de código e ajudar a identificar alguns problemas.
Sally Vincent, engenheira sênior de pesquisa de ameaças da empresa de análise de segurança Exabeam, afirmou por e-mail que as declarações sobre resistência a jailbreaks devem ser tratadas com cautela, pois esses resultados "representam uma avaliação em um determinado momento", acrescentando que "os atacantes se adaptam constantemente". Rob T. Lee, diretor de IA e chefe de pesquisa do SANS Institute, disse em um e-mail ao ZDNET que o Fable 5 é "uma solução nova e inteligente, mas o Fable 5 será atacado. A mesma camada que impede o uso malicioso também dificulta a pesquisa defensiva legítima." Ao tentar construir habilidades de perícia digital, ele foi rebaixado para o Opus 4.8, e acredita que "seja ou não uma maneira engenhosa de impedir agentes mal-intencionados, ela impede que aqueles que construirão a próxima geração de ferramentas adquiram novas capacidades defensivas." Ele também observou que, mesmo sob o Glasswing, o acesso é restrito e monitorado, mas em organizações com milhares de funcionários, qualquer um deles pode ser incentivado a entregar o acesso a grupos criminosos.
Diante da controvérsia, a Anthropic respondeu que alterará as medidas de segurança do Fable 5 para torná-las visíveis. A partir desta semana, solicitações sinalizadas serão claramente revertidas para o Opus 4.8, e solicitações sinalizadas na API retornarão um motivo de rejeição. A empresa afirmou que as atuais medidas de segurança "abrangem um pequeno número de tarefas restritas, como pipelines de dados de LLM em escala de ponta e desenvolvimento de kernel para certos chips não padronizados", e que essas medidas "impedem que adversários estrangeiros usem nosso modelo mais poderoso de maneiras que representem sérios riscos de segurança". A Anthropic também declarou: "Fizemos uma compensação errada e pedimos desculpas por não termos encontrado o equilíbrio certo. Construir essas medidas de segurança é um desafio técnico complexo: à medida que melhoramos esses classificadores para lidar com novas ameaças, os usuários podem encontrar mais falsos positivos. Estamos trabalhando para reduzi-los o mais rápido possível." Ao decidir se o rebaixamento seria visível ou não, a empresa enfrentou uma escolha: "Medidas de segurança ocultas são mais difíceis de detectar e contornar. Isso significa que as medidas de segurança podem ser definidas de forma mais direcionada", mas essas medidas ocultas foram descobertas em poucas horas.
O uso atual mostra que o classificador é acionado em cerca de 0,05% das tarefas, afetando menos de 0,05% das organizações. A Anthropic afirma que medidas de segurança visíveis exigem uma rede mais ampla para aumentar a robustez, resultando em mais solicitações sendo marcadas incorretamente, mas "elas não afetam a grande maioria dos trabalhos de codificação e aprendizado de máquina." Ashley Casovan, diretora-gerente do Centro de Governança de IA da IAPP, elogiou a Anthropic por manter o Mythos por tempo suficiente para "estabelecer as proteções necessárias em seu software", ao mesmo tempo que observou que "ainda não vimos o impacto que esses modelos podem ter quando lançados em tal escala." Chris Boehm, CTO de campo da fornecedora de segmentação de rede Zero Networks, descreveu essa conquista como contenção, e não capacidade bruta, com a Anthropic "domando-o o suficiente para ser amplamente lançado com segurança", e a recompensa é a escala: defensores comuns finalmente podem operar na velocidade dos atacantes, "desde que as medidas de segurança se mantenham".
Em relação à política de retenção de dados, a Anthropic reterá prompts e respostas de modelos de nível Mythos por 30 dias, e prompts que violam a política por mais tempo. Essa política já chamou a atenção de empresas como a Microsoft, que restringiu o uso por funcionários e formou uma equipe jurídica para avaliar a política. Etay Maor, vice-presidente de inteligência de ameaças da fornecedora de segurança Cato Networks, acredita que a proteção do Fable 5 é forte o suficiente para hackers oportunistas, mas "atacantes bem financiados e motivados" recorrerão a outros métodos. Ele também observou que "quando os classificadores se tornam muito rigorosos, começam a surgir falsos positivos. Os mesmos controles destinados a impedir atividades maliciosas também podem impedir que usuários legítimos usem o modelo para fins legítimos." Ele acrescentou que "do ponto de vista empresarial, o requisito de retenção de 30 dias merece atenção. Organizações em setores regulamentados precisam saber exatamente quais dados estão sendo retidos antes de usar esses modelos em ambientes sensíveis, e se isso está de acordo com seus requisitos de conformidade e legais."
Este texto foi elaborado por Wedoany. Qualquer citação por IA deve indicar a fonte “Wedoany”. Em caso de infração ou outros problemas, informe-nos prontamente, por favor. O conteúdo será corrigido ou removido. E-mail: news@wedoany.com









