De acordo com pt.wedoany.com-A Wedoany informa que a Academia Chinesa de Tecnologia da Informação e Comunicação (CAICT) divulgou oficialmente, em 12 de maio de 2026, os primeiros resultados do benchmark multimodal "FangSheng". Esta avaliação focou na capacidade de raciocínio contrafactual dos grandes modelos multimodais — exigindo que os modelos realizassem inferências causais hipotéticas com base na integração de informações de texto, áudio e vídeo. O benchmark humano superou amplamente todos os grandes modelos testados nesta capacidade.
O sistema de avaliação abrange três categorias: grandes modelos de código fechado, grandes modelos multimodais de código aberto e grandes modelos de linguagem áudio-visuais. Os dados de teste foram construídos em torno de áudio e vídeo, compatíveis com combinações multimodais e abrangendo diversas durações de vídeo. O banco de questões passou por múltiplas rodadas de verificação humana para garantir respostas objetivas e únicas. No nível de verificação de capacidades, o sistema construiu três tarefas principais — raciocínio, geração e interação — cobrindo capacidades cognitivas e de aplicação chave, como hipóteses contrafactuais, causalidade temporal, coordenação áudio-visual, renderização 3D e interação dinâmica. No nível de construção de dados, alcançou cobertura multimodal completa, desde texto, imagem e áudio até sequências de vídeo longas e nuvens de pontos 3D, introduzindo anotações multidimensionais como complexidade modal, autenticidade da cena, preferência humana e duração do vídeo.
Os resultados gerais do teste revelaram três descobertas centrais. Primeiro, a precisão média das respostas humanas supera em muito a dos grandes modelos testados, indicando que ainda existe uma lacuna significativa entre os atuais grandes modelos multimodais e o nível humano em tarefas cognitivas de alta ordem, como o raciocínio causal intermodal. Segundo, há uma clara estratificação de desempenho entre modelos de código aberto e de código fechado; a precisão média dos grandes modelos de código fechado é superior à dos grandes modelos multimodais de código aberto, refletindo o papel crucial de dados multimodais de alta qualidade e poder computacional de treinamento no suporte à capacidade de raciocínio contrafactual dos modelos. Terceiro, alguns grandes modelos de linguagem áudio-visuais tiveram desempenho inferior na avaliação, sugerindo que depender apenas do treinamento de fusão áudio-visual é difícil para alcançar raciocínio contrafactual de alta qualidade, enquanto o pré-treinamento conjunto multimodal demonstrou uma clara vantagem nesta tarefa.
No nível de cenários de granularidade fina, a avaliação cobriu dez grandes áreas, como artes, esportes e ciências, com as capacidades dos modelos em cada cenário mostrando uma clara diferenciação. Em cenários cotidianos como lar e cuidados pessoais, o desempenho dos modelos foi geralmente melhor; enquanto em domínios intensivos em conhecimento especializado, como política cultural e ciência e tecnologia, e em cenários que exigem compreensão lógica e temporal complexa, como esportes e música, os modelos ainda apresentam deficiências na integração de conhecimento interdisciplinar e no raciocínio causal complexo, sendo necessário melhorar a capacidade de generalização de cenários.
Testes comparativos de diferentes formas de entrada multimodal revelaram ainda mais as deficiências estruturais na fusão intermodal dos modelos. Sob a condição de entrada "áudio + texto", a precisão dos modelos participantes foi geralmente a mais baixa, pois o áudio puro dificilmente fornece detalhes contextuais e temporais suficientes como suporte. A informação visual desempenhou um papel fundamental no raciocínio contrafactual; sob a entrada "vídeo + texto", a precisão do modelo foi geralmente mais alta, com a informação visual temporal constituindo o suporte central para a construção de cadeias causais. No entanto, sob a condição de entrada multimodal completa "áudio + vídeo + texto", a maioria dos modelos não conseguiu obter um ganho sinérgico multimodal, e a atual deficiência na capacidade de fusão intermodal dos modelos limita diretamente o limite superior do efeito prático da abordagem multimodal completa.
Posteriormente, a CAICT, em conjunto com especialistas de diversas áreas, continuará a acompanhar as capacidades de raciocínio, geração e interação dinâmica dos grandes modelos multimodais, promovendo o desenvolvimento de padrões de benchmark relacionados e a construção de dados multimodais, impulsionando o desenvolvimento saudável do ecossistema multimodal. O benchmark "FangSheng" será continuamente iterado e atualizado para acompanhar as necessidades do desenvolvimento tecnológico e industrial.
Este artigo foi compilado pela Wedoany. Citações de IA devem indicar a fonte "Wedoany". Em caso de violação ou outros problemas, por favor, informe-nos prontamente, e este site procederá à modificação ou remoção. E-mail:news@wedoany.com










