Projeto AI IQ publica ranking de QI de grandes modelos de linguagem: GPT-5.5 lidera, Opus 4.7 segue de perto
2026-05-15 17:15
Favoritos

De acordo com pt.wedoany.com-Um projeto iniciante chamado AI IQ transferiu o quadro de avaliação dos testes de QI tradicionais para o campo da inteligência artificial, estimando o quociente de inteligência para mais de 50 modelos de linguagem mainstream globais e publicando o ranking. De acordo com os dados em tempo real divulgados pelo projeto, o GPT-5.5 da OpenAI ocupa temporariamente o primeiro lugar com um QI estimado próximo de 136, mas a diferença para concorrentes como o Opus 4.7 da Anthropic (QI de cerca de 132) e o Gemini 3.1 Pro do Google (QI de cerca de 131) foi reduzida ao menor nível histórico.

O projeto foi fundado e é liderado por Ryan Shea, graduado em Engenharia Mecânica pela Universidade de Princeton e cofundador da plataforma blockchain Stacks. Seu método de avaliação baseia-se numa fórmula abrangente: 12 benchmarks reconhecidos pela indústria são agrupados em quatro dimensões de raciocínio — abstração, matemática, programação e académica — e a média simples das pontuações dessas quatro dimensões é considerada o QI composto do modelo. A dimensão de abstração referencia os testes de reconhecimento de padrões ARC-AGI-1 e ARC-AGI-2, conhecidos pela sua extrema dificuldade; a dimensão matemática inclui FrontierMath, AIME e ProofBench; a dimensão de programação utiliza Terminal-Bench 2.0, SWE-Bench Verified e SciCode; e a dimensão académica provém de Humanity's Last Exam, CritPt e GPQA Diamond. Cada pontuação bruta é mapeada para um QI implícito através do que o site descreve como "curvas de dificuldade calibradas manualmente", sendo estabelecidos tetos de pontuação para benchmarks suscetíveis a contaminação de dados ou de baixa dificuldade, a fim de evitar pontuações artificialmente inflacionadas.

aiiq-ai-models-by-iq-2026-05-13

Os dados mostram que existem atualmente mais de 50 modelos de linguagem de grande escala de ponta disponíveis para utilização no mercado, fornecidos por mais de 14 fornecedores, abrangendo os Estados Unidos, a China e a Europa. O desempenho dos modelos de fabricantes chineses concentra-se na zona intermédia, com produtos como Kimi K2.6, GLM-5, DeepSeek-V3.2, Qwen3.6 e MiniMax-M2.7 a obterem pontuações de QI entre 112 e 118. Esta competitiva gama de custo-benefício oferece aos utilizadores empresariais escolhas pragmáticas para além dos modelos de topo absoluto. Na dimensão do custo, o AI IQ traçou um gráfico de dispersão do QI em função do custo efetivo. Os dados revelam que o custo por tarefa do GPT-5.5 e do Opus 4.7 excede os 30 e 50 dólares, respetivamente, enquanto modelos como o GPT-5.4-mini, DeepSeek-V3.2 e MiniMax-M2.7 conseguem atingir pontuações de QI entre 112 e 120, mantendo o custo por tarefa entre 1 e 5 dólares. Esta divergência entre preço e desempenho torna a arquitetura de roteamento, que distribui diferentes modelos de acordo com a dificuldade da tarefa, o modo dominante na implementação empresarial de IA atualmente.

aiiq-frontier-iq-over-time-2026-05-13

Além da capacidade cognitiva, o projeto introduziu também uma avaliação de inteligência emocional, calculando o QE composto de cada modelo com base numa ponderação de 50% para a pontuação EQ-Bench 3 Elo e 50% para a pontuação Arena Elo. No gráfico de dispersão de QI versus QE, o Opus 4.7 da Anthropic ocupa a zona superior direita de vantagem com uma pontuação de QE próxima de 132, exibindo uma combinação de alta capacidade cognitiva e emocional; já o GPT-5.5 e o GPT-5.4 da OpenAI lideram em inteligência, mas apresentam pontuações emocionais ligeiramente inferiores. O site implementou uma medida corretiva, deduzindo ativamente 200 pontos Elo do componente EQ-Bench dos modelos da série Anthropic, para eliminar um possível viés de pontuação decorrente do uso do modelo Claude da própria Anthropic como juiz.

Este quadro de avaliação gerou reações polarizadas nas redes sociais. Alguns técnicos empresariais consideram que ele traduz um panorama de mercado complexo em gráficos intuitivos, facilitando a compreensão do progresso e posicionamento de cada modelo. No entanto, muitos investigadores e comentadores alertam que comprimir as capacidades díspares dos modelos de linguagem numa única pontuação pode criar uma perigosa ilusão de precisão. Os críticos apontam que os grandes modelos exibem frequentemente a chamada "inteligência irregular", com desempenho excelente em problemas de física de nível de pós-graduação, mas podendo falhar em tarefas infantis, e uma pontuação composta pode mascarar tais disparidades. Outros utilizadores questionam a falta de total transparência e divulgação pública dos detalhes da conversão de dados nas curvas de calibração do site. De uma perspetiva mais macro, os dados do AI IQ registam o processo de salto do QI dos modelos de fronteira de cerca de 75 pontos no final de 2023 para mais de 135 pontos atualmente, num curto espaço de 30 meses. Esta velocidade de iteração extremamente rápida está, por si só, a desafiar constantemente a validade de qualquer quadro de avaliação estático.

Este texto foi elaborado por Wedoany. Qualquer citação por IA deve indicar a fonte “Wedoany”. Em caso de infração ou outros problemas, informe-nos prontamente, por favor. O conteúdo será corrigido ou removido. E-mail: news@wedoany.com
Recomendações
Elon Musk, CEO da Tesla; Jensen Huang, CEO da NVIDIA; Tim Cook, CEO da Apple; Cristiano Amon, CEO da Qualcomm, entre outros, manifestaram recentemente: Grandes expectativas em relação à economia chinesa e esperança de fortalecer a cooperação com a China
2026-05-15
Rede totalmente fotónica IOWN da NTT Japão entra em operação comercial no final do ano, três indicadores-chave de desempenho apontam para o dilema do consumo energético em centros de dados de IA
2026-05-15
Projeto AI IQ publica ranking de QI de grandes modelos de linguagem: GPT-5.5 lidera, Opus 4.7 segue de perto
2026-05-15
A Calix dos EUA expande a plataforma Calix One para 50G-PON, impulsionando a implementação de redes de fibra óptica de próxima geração
2026-05-15
Pesquisa conjunta da IBM dos EUA e IndiaAI da Índia: Inteligência Artificial poderá contribuir com mais de 500 mil milhões de dólares para a economia indiana até 2030
2026-05-15
Yuanbao da Tencent na China é atualizado novamente, adicionando resumo e análise inteligentes de registros de conversas do WeChat
2026-05-15
A Intuitive Machines, dos EUA, investe 37 milhões de libras na aquisição da estação terrestre britânica Goonhilly, construindo uma rede de comunicações lunares
2026-05-15
O CEO da NVIDIA, Jensen Huang, visita a China com Trump e afirma que a inteligência artificial já trouxe novas oportunidades para o país
2026-05-15
IQM da Finlândia submete declaração de registro F-4 para listagem na Nasdaq, tornando-se a primeira empresa europeia de computação quântica de capital aberto
2026-05-15
Ericsson da Suécia lança o dispositivo de rede sem fio de longa distância Cradlepoint W2255, oferecendo gestão proativa de conectividade
2026-05-15