Instituto de Segurança de IA da Coreia do Sul divulga pela primeira vez detalhes da avaliação de segurança de modelos de IA
2026-06-21 10:21
Favoritos

De acordo com pt.wedoany.com-O Instituto de Segurança de Inteligência Artificial da Coreia do Sul (AISI, AI Safety Institute), desde sua fundação em novembro de 2024, passará a divulgar gradualmente os resultados das avaliações de segurança de modelos de inteligência artificial (IA) que antes não eram públicos. O objetivo da instituição é publicar de forma mais detalhada as conclusões das avaliações de segurança realizadas em modelos de IA nacionais e internacionais (incluindo modelos de código aberto), fortalecendo assim um sistema de avaliação transparente.

Segundo informações do setor no dia 19, o AISI publicou no dia 15, através de seu site oficial, o "Relatório Detalhado de Resultados de Testes Conjuntos de Risco de Vazamento de Dados de Agentes de IA", realizado no primeiro semestre deste ano em parceria com o AISI de Singapura. Este relatório revela especificamente situações em que, durante a execução de instruções rotineiras, agentes de IA podem, devido a erros de julgamento, consultar, transmitir e vazar informações sensíveis de forma incorreta, causando erros fatais.

Este relatório conjunto Coreia-Singapura é o primeiro a ser divulgado publicamente, contendo não apenas listas de verificação, mas também valores numéricos detalhados e resultados. Os nomes dos modelos globais abordados no relatório foram anonimizados como A, B, C, etc., mas a avaliação quantitativa confirmou vários casos de "inconsistência cognição-ação", ou seja, mesmo que o agente tenha excelente capacidade de execução de tarefas, sua capacidade de processamento seguro de dados não é garantida. Além disso, o relatório também confirmou fatores de risco específicos de agentes de IA, como o fenômeno de afirmar ter concluído uma tarefa sem realmente executar a ferramenta (o fenômeno de alucinação de "relatório falso").

Principais resultados experimentais no ambiente de teste do AISI coreano (foto = captura de tela do relatório conjunto Coreia-Singapura AISI)

Na verdade, esta é a primeira vez que o AISI publica um relatório contendo valores numéricos detalhados e recomendações. Anteriormente, devido ao escopo limitado de divulgação dos resultados das avaliações de segurança de modelos de IA, era difícil não apenas confirmar os resultados das avaliações nominais de modelos individuais, mas também verificar o conteúdo. O "Desempenho de Avaliação de Segurança de 42 Modelos de IA" publicado pelo AISI no mês passado, referente a 42 modelos nacionais e internacionais principais verificados em um período de cerca de 16 meses, de janeiro de 2025 a abril de 2026, divulgou apenas uma lista focada em nomes de modelos e itens de avaliação, sem dados específicos.

Exceto pelo primeiro caso de avaliação de segurança de IA da Coreia, o "Kanana" da Kakao, divulgado conjuntamente pelo AISI e pela Associação de Tecnologia da Informação e Comunicação da Coreia (TTA), os níveis de segurança ou indicadores detalhados da maioria dos modelos não foram divulgados. As dúvidas externas sobre o desempenho e o papel do AISI decorrem, em grande parte, da cautela excessiva do instituto em divulgar os resultados essenciais das avaliações de segurança. A análise do setor sugere que isso se deve principalmente ao receio de expor a diferença de nível entre os modelos das gigantes globais de tecnologia e os modelos nacionais, como o projeto de "Desenvolvimento de Modelo de Base de IA Independente" liderado pelo Ministério da Ciência e TIC da Coreia, gerando assim um ônus.

O diretor do AISI, Kim Myung-joo, afirmou: "Para as avaliações de segurança realizadas daqui em diante, planejamos divulgar todo o conteúdo sempre que a empresa-alvo não se opuser." No entanto, ele acrescentou: "Dependendo das solicitações das empresas, alguns nomes de modelos podem ser anonimizados."

O AISI, como organização afiliada ao Instituto de Pesquisa em Eletrônica e Telecomunicações da Coreia (ETRI), subordinado ao Ministério da Ciência e TIC da Coreia, representa a Coreia do Sul na cooperação especializada com institutos de segurança de IA ou organizações relacionadas de vários países. As recentes parcerias em série estabelecidas pelo AISI com os três principais desenvolvedores globais de IA — Google DeepMind, OpenAI e Anthropic — devem se tornar a força motriz central para a construção de uma rede global de segurança de IA.

Em relação ao Google DeepMind, com base no Memorando de Entendimento (MOU) assinado pelo Ministério da Ciência e TIC da Coreia em abril, as discussões continuarão sobre a construção de estruturas de segurança e metodologias de teste. Em relação à OpenAI, o AISI assinou diretamente um MOU no dia 17, decidindo compartilhar metodologias de avaliação de segurança e conhecimento de referência em áreas de alto risco. Em particular, o AISI aplicará seus próprios dados de referência em coreano para realizar conjuntamente avaliações de alucinação e segurança sob a perspectiva coreana, além de colaborar no estabelecimento de padrões internacionais.

Em relação à Anthropic, em conjunto com o MOU assinado pelo Ministério da Ciência e TIC da Coreia no dia 18, será promovida a avaliação de equipe vermelha de agentes de IA autônomos e a avaliação de segurança e risco de uso indevido de modelos no contexto do idioma coreano. Além disso, serão rapidamente compartilhadas informações sobre vulnerabilidades de IA e ameaças cibernéticas em áreas principais, como finanças, promovendo uma cooperação substancial no campo da segurança cibernética.

O diretor Kim Myung-joo enfatizou: "Continuaremos a expandir a base de cooperação com gigantes globais de tecnologia como Google DeepMind, OpenAI e Anthropic, verificando cientificamente os riscos dos modelos mais avançados e liderando um sistema de avaliação de estilo coreano de uso internacional."

Este texto foi elaborado por Wedoany. Qualquer citação por IA deve indicar a fonte “Wedoany”. Em caso de infração ou outros problemas, informe-nos prontamente, por favor. O conteúdo será corrigido ou removido. E-mail: news@wedoany.com