NTT do Japão propõe estrutura de XAI multimodal, colaboração de agentes de IA preenche a lacuna de "credibilidade da explicação"_Boletins

NTT do Japão propõe estrutura de XAI multimodal, colaboração de agentes de IA preenche a lacuna de "credibilidade da explicação"

2026-06-03 13:58

Favoritos

De acordo com pt.wedoany.com-Recentemente, a NTT do Japão anunciou o desenvolvimento de uma nova técnica de IA explicável para modelos de base multimodal, chamada "Rationale-Enhanced Decoding". Essa tecnologia visa melhorar a confiabilidade das saídas de grandes modelos de linguagem visual ao processar imagens e texto. A pesquisa relacionada será apresentada na CVPR 2026, que ocorrerá de 3 a 7 de junho em Denver, EUA.

Esta técnica aborda um problema crítico nas aplicações atuais de IA multimodal: a resposta final gerada pelo modelo pode não usar realmente o raciocínio que ele próprio produziu na etapa anterior. A NTT descobriu em experimentos que, embora os grandes modelos de linguagem visual existentes possam primeiro gerar um processo de raciocínio intermediário e, em seguida, dar a resposta final com base na imagem, no texto e no conteúdo do raciocínio, o modelo às vezes ignora esse conteúdo de raciocínio e produz o resultado dependendo diretamente das informações da imagem. Mesmo que os pesquisadores substituam a base do raciocínio por conteúdo irrelevante para a pergunta, o modelo ainda pode dar a mesma resposta de antes. Isso significa que a chamada "cadeia de pensamento" não equivale naturalmente a uma explicação real em alguns cenários, sendo difícil de sustentar aplicações de alta confiabilidade, como imagens médicas, tomada de decisões empresariais e auditoria de processos críticos de negócios.

A Rationale-Enhanced Decoding proposta pela NTT não requer retreinamento do modelo nem depende de conjuntos de dados adicionais. Sua abordagem consiste em, durante a fase de inferência, separar a distribuição de probabilidade sob a condição de entrada visual da distribuição de probabilidade sob a condição da base do raciocínio e, em seguida, gerar a resposta final por meio de decodificação combinada, fazendo com que a saída seja restringida simultaneamente pelas informações da imagem e pela base do raciocínio.

Essa característica de "não exigir retreinamento" a torna mais adequada para ser incorporada em grandes modelos de linguagem visual existentes e sistemas de IA empresariais. À medida que os agentes de IA começam a assumir tarefas como compreensão de documentos, análise de vídeo, inspeção industrial, colaboração em atendimento ao cliente, auditoria de risco e suporte à decisão de negócios, as empresas não precisam apenas que o modelo forneça respostas, mas também que julguem se as respostas se baseiam em uma cadeia de evidências rastreável e verificável. Se os modelos multimodais tradicionais só conseguem fornecer um processo de raciocínio superficial, sem uma restrição de consistência entre a resposta final e a base do raciocínio, isso afetará a responsabilização e o controle de risco da IA em cenários críticos. A pesquisa da NTT leva a capacidade de explicação de "mostrar a razão após o fato" para "forçar o uso da razão durante o processo de raciocínio", o que é igualmente importante para a colaboração entre agentes de IA, pois, quando vários sistemas de IA trabalham juntos, o agente subsequente precisa entender por que o agente anterior tomou uma decisão e continuar a executar a tarefa com base na mesma base.

As variáveis subsequentes desta pesquisa concentram-se na integração de engenharia e na validação de aplicações. Se a Rationale-Enhanced Decoding conseguir manter efeitos estáveis em mais modelos multimodais, mais tarefas de compreensão de imagens e sistemas de agentes de nível empresarial, a IA explicável deixará de ser apenas uma capacidade adicional no nível de conformidade ou auditoria e se tornará uma das capacidades básicas para a entrada da IA multimodal nos processos de produção. Para o setor de tecnologia da informação e comunicação, esse tipo de tecnologia também mostra que a competição de IA empresarial está se estendendo da escala do modelo e da capacidade de resposta para a consistência do raciocínio, a credibilidade da explicação e a confiabilidade da colaboração entre sistemas.

Este texto foi elaborado por Wedoany. Qualquer citação por IA deve indicar a fonte “Wedoany”. Em caso de infração ou outros problemas, informe-nos prontamente, por favor. O conteúdo será corrigido ou removido. E-mail: news@wedoany.com

Japão

Informação e Comunicação Engenharia de inteligência artificial

Este boletim é uma compilação e reprodução de informações de parceiros estratégicos e da internet global, destinado apenas para troca de informações entre leitores. Em caso de infração ou outros problemas, por favor, informe-nos imediatamente, e este site fará as devidas modificações ou exclusões. A reprodução deste artigo é estritamente proibida sem autorização formal. E-mail: news@wedoany.com