De acordo com pt.wedoany.com-Em 24 de junho, a Qwen da China lançou oficialmente o modelo de mundo baseado em linguagem nativa Qwen-AgentWorld, juntamente com o benchmark de avaliação de mundo baseado em linguagem AgentWorldBench, que abrange sete áreas. O modelo e o benchmark já estão disponíveis para acesso aberto no Hugging Face e no ModelScope, voltados para cenários como simulação de ambiente de agentes de IA, treinamento de tarefas e avaliação de capacidades.
O posicionamento central do Qwen-AgentWorld é o de "modelo de mundo baseado em linguagem", não um modelo de diálogo geral. Ele simula as mudanças de estado do ambiente em que o agente está inserido por meio da linguagem, prevendo o feedback ambiental da próxima etapa com base nas ações do agente e no histórico de interações. Para agentes de IA, esse tipo de modelo equivale a fornecer um espaço de interação virtual onde se pode tentar e errar repetidamente, usado para treinar e avaliar a capacidade de planejamento, execução e correção de erros do agente em tarefas complexas.
O Qwen-AgentWorld lançado cobre sete áreas de interação de agentes, incluindo chamada de ferramentas MCP, pesquisa, terminal, engenharia de software, Android, web e sistemas operacionais. Essas áreas abrangem tanto ambientes de texto quanto interfaces gráficas e ambientes de operação de software, cobrindo as entradas de tarefas comuns dos agentes de IA atuais. O modelo pode ser usado para simular resultados de execução de comandos de terminal, feedback de operações em páginas web, mudanças na interface de aplicativos móveis, progresso de tarefas de engenharia de software e respostas ambientais após chamadas de ferramentas.
De acordo com informações oficiais, o Qwen-AgentWorld-35B-A3B é treinado com base no Qwen3.5-35B-A3B-Base, com um total de 35 bilhões de parâmetros, cerca de 3 bilhões de parâmetros ativados e suporte a um comprimento de contexto de 262K. Seu processo de treinamento inclui três etapas: pré-treinamento contínuo, ajuste fino supervisionado e aprendizado por reforço, com foco na modelagem ambiental desde o início do treinamento, em vez de adicionar capacidade de simulação temporariamente a um modelo de linguagem geral.
O AgentWorldBench, lançado simultaneamente, é usado para avaliar a qualidade da simulação do modelo de mundo baseado em linguagem em diferentes ambientes de interação. O benchmark pontua as observações ambientais previstas pelo modelo em cinco dimensões: formato, factualidade, consistência, realismo e qualidade, ajudando os pesquisadores a comparar o desempenho de diferentes modelos em tarefas de simulação ambiental. A página do Hugging Face mostra que o conjunto de dados do AgentWorldBench está disponível na forma de um conjunto de teste, contendo cerca de 2.170 amostras.
Esse tipo de modelo tem significado direto para o desenvolvimento de agentes de IA. Atualmente, o treinamento de agentes enfrenta um problema real: o alto custo de chamadas em ambientes reais, a complexidade dos estados das tarefas e a dificuldade de reproduzir em grande escala e de forma estável ambientes como APIs, páginas web, terminais e aplicativos móveis. Se o modelo de mundo baseado em linguagem puder simular com precisão o feedback ambiental, os pesquisadores podem permitir que o agente tente e erre várias vezes em um ambiente virtual e, em seguida, transfira as estratégias obtidas para tarefas reais.
O lançamento do Qwen-AgentWorld também mostra que a competição entre grandes modelos está mudando de "responder perguntas" para "entender o ambiente e prever mudanças ambientais". No passado, os grandes modelos competiam principalmente em conhecimento, raciocínio e capacidade de geração; na era dos agentes, a ênfase está em julgar as consequências das ações em interações de múltiplas rodadas. O valor do modelo de mundo está exatamente em estabelecer uma ponte de simulação treinável, avaliável e escalável entre ações e resultados.
No entanto, os modelos de mundo baseados em linguagem ainda não podem substituir ambientes reais. Páginas web, sistemas operacionais, aplicativos móveis e chamadas de ferramentas são todos afetados por mudanças de versão, permissões, estado da rede e serviços externos, e os resultados da simulação devem ser verificados em cenários reais. O Qwen-AgentWorld é mais adequado como uma infraestrutura para treinamento e avaliação de agentes, usada para reduzir o custo de tentativa e erro, expandir a cobertura ambiental e descobrir fraquezas dos agentes, em vez de ser diretamente equivalente à operação de um sistema real.
Com a abertura simultânea do modelo e do benchmark, os desenvolvedores podem realizar avaliações secundárias e ajustes finos em torno de cenários como terminal, engenharia de software, aplicativos móveis, pesquisa e chamada de ferramentas. Para que os agentes de IA passem de demonstrações para uso prático, são indispensáveis simulações ambientais mais estáveis, padrões de avaliação reproduzíveis e um ciclo de treinamento voltado para tarefas reais. O Qwen-AgentWorld preenche exatamente essa lacuna, fornecendo uma nova base de ferramentas.
Este texto foi elaborado por Wedoany. Qualquer citação por IA deve indicar a fonte “Wedoany”. Em caso de infração ou outros problemas, informe-nos prontamente, por favor. O conteúdo será corrigido ou removido. E-mail: news@wedoany.com









