NTT do Japão lança estrutura de raciocínio de IA explicável multimodal, modelos de linguagem visual entram na fase de calibração de saída confiável
2026-06-02 16:45
Favoritos

De acordo com pt.wedoany.com-A NTT do Japão anunciou recentemente o estabelecimento da estrutura de raciocínio de IA explicável multimodal "Rationale-Enhanced Decoding", voltada para o problema de saída confiável em grandes modelos de linguagem visual durante o raciocínio conjunto de imagens e texto, melhorando a consistência entre a resposta final do modelo e a base do raciocínio. O resultado será apresentado na CVPR 2026, de 3 a 7 de junho, em Denver, EUA, com aplicações direcionadas a cenários como tomada de decisão empresarial, colaboração de agentes de IA, compreensão de documentos, resposta visual a perguntas e interação humano-computador de alta confiabilidade.

Os grandes modelos de linguagem visual estão evoluindo de "responder com base na imagem" para um raciocínio multimodal mais complexo, capazes de processar simultaneamente imagens, textos, tabelas, capturas de tela, clipes de vídeo e documentos comerciais, entrando gradualmente em fase de teste e implantação em inspeção industrial, imagens médicas, revisão de contratos, operação remota, atendimento inteligente e gestão de conhecimento empresarial. No entanto, o problema central desses modelos é que o processo de raciocínio intermediário gerado não necessariamente influencia a resposta final. A NTT aponta em sua pesquisa que os métodos tradicionais de cadeia de pensamento multimodal primeiro geram explicações ou bases de raciocínio e, em seguida, inserem esses conteúdos junto com a imagem original no modelo para gerar a resposta final; superficialmente, o modelo fornece "razões", mas a saída real pode ainda depender principalmente das características da imagem, e até mesmo quando a base do raciocínio é substituída por conteúdo irrelevante, o modelo ainda dá a mesma resposta original. Isso significa que a suposta explicação pode ser apenas um texto adicional, sem provar que o modelo realmente seguiu essa explicação para fazer o julgamento. Para sistemas de IA empresarial que exigem auditoria, responsabilização e revisão, isso enfraquece a credibilidade da IA multimodal em operações críticas e também limita a entrada de modelos de linguagem visual em cenários de alta confiabilidade, como diagnóstico médico, controle de risco financeiro, inspeção de qualidade industrial e processos complexos de escritório.

A solução proposta pela NTT não requer retreinamento do modelo nem depende de conjuntos de dados adicionais, mas reorganiza a forma de geração de saída durante a fase de inferência.

A estrutura forma distribuições condicionais separadas para a entrada visual e a base do raciocínio, e, em seguida, combina-as para prever a próxima palavra, fazendo com que o modelo, ao gerar a resposta, seja restringido simultaneamente pelas informações da imagem e pelas razões. Em outras palavras, a resposta final precisa ser consistente tanto com o conteúdo visual quanto com a base do raciocínio, em vez de tratar o texto explicativo como um conteúdo acessório opcional. A NTT descreve esse método como uma técnica de decodificação plug-and-play, que pode ser integrada a grandes modelos de linguagem visual existentes, reduzindo os custos computacionais, de dados e de implantação associados ao treinamento adicional. Os resultados da pesquisa mostram que o método melhora a precisão das respostas e a fidelidade da base do raciocínio em vários modelos de linguagem visual; quando a base do raciocínio de entrada é de maior qualidade, o efeito da estrutura é ainda mais aprimorado. Para a implementação empresarial de IA, o valor dessa abordagem técnica está em avançar de "o modelo pode responder" para "a resposta do modelo pode ser explicada, verificada e revisada", fornecendo uma base de raciocínio mais estável para colaboração multiagente, processamento complexo de documentos, análise de cenas visuais e suporte à tomada de decisão.

A importância industrial da IA explicável multimodal está crescendo. À medida que os agentes de IA passam de perguntas e respostas únicas para a execução contínua de tarefas, o sistema transmite repetidamente resultados de julgamento entre reconhecimento de imagem, compreensão de documentos, recuperação, planejamento e chamada de ferramentas. Uma vez que as razões fornecidas pelo modelo de linguagem visual frontal se desconectam da resposta, a cadeia subsequente de agentes pode continuar a se expandir com base em fundamentos errados. O resultado da NTT foca o problema no elo fundamental de "se a base do raciocínio realmente participa da geração da resposta", ajudando a melhorar a credibilidade das informações durante a colaboração entre sistemas de IA. Se, no futuro, a estrutura for validada quanto à estabilidade em mais modelos, mais tarefas e dados comerciais reais, ela poderá entrar na camada de raciocínio de plataformas de IA empresarial, sistemas de escritório inteligente, grandes modelos setoriais e ferramentas de análise visual de alta confiabilidade, tornando-se um componente técnico importante para a transição da IA multimodal de demonstração para produção implantada.

Este texto foi elaborado por Wedoany. Qualquer citação por IA deve indicar a fonte “Wedoany”. Em caso de infração ou outros problemas, informe-nos prontamente, por favor. O conteúdo será corrigido ou removido. E-mail: news@wedoany.com
Recomendações