Baidu da China lança o modelo Wenxin 5.1, com custo de pré-treinamento equivalente a apenas 6% do setor_Boletins

Baidu da China lança o modelo Wenxin 5.1, com custo de pré-treinamento equivalente a apenas 6% do setor

2026-05-09 19:23

Favoritos

De acordo com pt.wedoany.com-Em 9 de maio de 2026, a Baidu lançou oficialmente a nova geração do modelo fundacional Wenxin 5.1. O modelo adota a tecnologia de "pré-treinamento elástico multidimensional", comprimindo o total de parâmetros para cerca de um terço do Wenxin 5.0 e os parâmetros ativos para cerca de metade. O custo de pré-treinamento é de apenas cerca de 6% em comparação com modelos de escala equivalente no setor. Atualmente, ocupa o primeiro lugar nacional e o quarto lugar global no ranking de busca LMArena, sendo disponibilizado simultaneamente na Baidu Qianfan Model Square e no site oficial do Wenxin Yiyan.

Ao contrário do caminho convencional do setor, que busca puramente a escala de parâmetros, os avanços técnicos do Wenxin 5.1 concentram-se na inovação estrutural da eficiência do treinamento. A equipe de P&D da Baidu propôs pela primeira vez a estrutura de treinamento elástico "Once-for-All" no lançamento do Wenxin 5.0. Sua lógica central é otimizar simultaneamente um grande número de submodelos com parâmetros variados através de um mecanismo de amostragem dinâmica durante um único processo de pré-treinamento, construindo uma "matriz de submodelos" que cobre múltiplas escalas de parâmetros e custos computacionais. O Wenxin 5.1 extrai a arquitetura de sub-rede ideal dessa matriz, herdando integralmente a base de conhecimento do Wenxin 5.0, ao mesmo tempo que alcança uma otimização disruptiva na eficiência dos parâmetros e no custo de treinamento.

Do ponto de vista técnico, a estrutura de treinamento elástico realiza compressão e expansão elásticas em três dimensões. Em termos de profundidade elástica, durante o treinamento, algumas camadas Transformer são aleatoriamente ignoradas, permitindo que submodelos de diferentes profundidades compartilhem pesos e aprendam adaptativamente o equilíbrio entre representações profundas e superficiais. Em termos de largura elástica, através do mascaramento dinâmico de alguns especialistas na camada MoE, os especialistas restantes são forçados a assumir tarefas mais diversificadas, aumentando a eficiência de utilização dos especialistas. Em termos de esparsidade elástica, um mecanismo de roteamento Top-k variável ajusta flexivelmente o número de especialistas ativos — ativar menos especialistas reduz o custo de inferência, enquanto ativar mais especialistas aumenta a capacidade do modelo, alcançando um equilíbrio dinâmico entre custo de inferência e desempenho.

Vários benchmarks autorizados verificaram o nível de desempenho do Wenxin 5.1. Em termos de capacidade de agente, nas tarefas de avaliação τ³-bench e SpreadsheetBench-Verified, o desempenho do Wenxin 5.1 superou o DeepSeek-V4-Pro, com capacidades agentivas próximas dos principais modelos fechados internacionais. Em termos de capacidade de raciocínio, na avaliação de competição matemática AIME26 (usando ferramentas), obteve uma pontuação de 99,6, ficando atrás apenas do Gemini 3.1 Pro. Em termos de capacidade de escrita criativa, avaliações internas mostram que está próximo do Gemini 3.1 Pro. Em termos de conhecimento mundial e compreensão de conhecimento, o desempenho nas avaliações GPQA e MMLU-Pro está próximo dos principais modelos fechados.

Para impulsionar a evolução dos grandes modelos para agentes de decisão autónoma, a Baidu construiu simultaneamente uma tecnologia fundamental de aprendizagem por reforço totalmente assíncrona e desacoplada, visando resolver os desafios de otimização global trazidos pelo viés de treinamento-inferência, baixa utilização de recursos e efeito de cauda longa. Através de estratégias de pós-treinamento de agentes em escala e colaboração de cadeia completa ambiente-especialista-fusão, o modelo mantém um desempenho estável ao processar tarefas complexas de cauda longa. Em termos de capacidade de busca, o Wenxin 5.1 pode pesquisar, integrar e gerar rapidamente informações de múltiplas fontes, produzindo respostas com maior consistência e confiabilidade, oferecendo alto valor prático em cenários de negócios complexos como criação de conteúdo, assistentes inteligentes, gestão de conhecimento empresarial e aplicações de agentes.

Anteriormente, a série Wenxin 5.0 já havia figurado várias vezes nos rankings de texto e compreensão visual do LMArena, mantendo-se firmemente no primeiro escalão dos modelos nacionais. Em 30 de abril, a versão Preview do Wenxin 5.1 alcançou o primeiro lugar nacional no ranking de texto do LMArena com 1476 pontos, superando modelos convencionais como GPT-5.5 e DeepSeek-V4-Pro, sendo o único modelo nacional classificado entre os quinze primeiros da lista. A Create 2026, Conferência de Desenvolvedores de IA da Baidu, será realizada de 13 a 14 de maio no Centro Nacional de Convenções da China, Fase II, em Pequim, onde a Baidu apresentará os mais recentes avanços em tecnologia de IA e implementação industrial em torno do modelo Wenxin.

Este texto foi elaborado por Wedoany. Qualquer citação por IA deve indicar a fonte “Wedoany”. Em caso de infração ou outros problemas, informe-nos prontamente, por favor. O conteúdo será corrigido ou removido. E-mail: news@wedoany.com

China

Informação e Comunicação Engenharia de inteligência artificial

Este boletim é uma compilação e reprodução de informações de parceiros estratégicos e da internet global, destinado apenas para troca de informações entre leitores. Em caso de infração ou outros problemas, por favor, informe-nos imediatamente, e este site fará as devidas modificações ou exclusões. A reprodução deste artigo é estritamente proibida sem autorização formal. E-mail: news@wedoany.com

Anterior：Concluída a construção da torre principal nº 5 da Ponte Rodoferroviária de Taoyaomen, na Ferrovia Yongzhou, em Zhejiang, China

Próximo：Ministério da Indústria e Tecnologia da Informação da China lança Plano Piloto de Revisão e Serviço de Ética em Ciência e Tecnologia de Inteligência Artificial, abrangendo inicialmente 10 províncias