A Alibaba da China lança Qwen3.7-Plus, agente multimodal que evolui da compreensão visual para a execução ponta a ponta
2026-06-02 09:19
Favoritos

De acordo com pt.wedoany.com-No dia 2 de junho, a Alibaba lançou oficialmente o modelo de agente multimodal Qwen3.7-Plus. Este modelo aprimora as capacidades visuais-linguísticas com base nas habilidades textuais do Qwen3.7, mantendo as capacidades de agente, como codificação, uso de ferramentas e fluxos de trabalho de produtividade.

A principal mudança do Qwen3.7-Plus é avançar de "entender o conteúdo" para "compreender a interface e executar tarefas". A página do modelo Qwen da Alibaba Cloud mostra que o modelo de agente multimodal Qwen3.7-Plus pode não apenas entender interfaces e operar aplicativos, mas também escrever código e entregar resultados, com o objetivo de alcançar um ciclo fechado ponta a ponta de "ver, pensar, escrever, fazer e verificar". Para aplicações de IA empresarial, as capacidades multimodais costumavam se concentrar mais em áreas como compreensão de imagens, reconhecimento de documentos, análise de gráficos e resumo de conteúdo de vídeo, onde o modelo atuava principalmente como um leitor e intérprete de informações. Ao entrar na fase de agente, as empresas precisam que o modelo, após entender a tela, compreender páginas da web, reconhecer interfaces de software e ler materiais de negócios, continue a executar operações, incluindo chamar ferramentas, gerar código, preencher formulários, organizar documentos, executar fluxos de trabalho de escritório e verificar resultados. O Qwen3.7-Plus enfatiza a combinação de capacidades visuais-linguísticas com capacidades de agente, o que significa que os modelos multimodais começam a se estender da "camada de percepção" para a "camada de execução de tarefas".

Esta atualização também dá continuidade à direção de produto da série Qwen 3.7 da Alibaba voltada para a era dos agentes. De acordo com a página da Alibaba Cloud, a série Qwen3.7 avançou de forma abrangente em programação, automação de escritório e capacidade de execução autônoma de tarefas de longo ciclo, posicionando-se para aplicações de agente em cenários complexos.

Do ponto de vista da implementação técnica, o Qwen3.7-Plus é mais adequado para assumir tarefas compostas em cenários de produtividade empresarial. Muitos processos empresariais não são tarefas puramente textuais, mas sim compostos por páginas da web, tabelas, imagens, PDFs, sistemas de back-end, atas de reuniões, repositórios de código e bancos de dados de negócios. Se o modelo só consegue processar texto, é necessário muito trabalho manual para transcrever informações da interface em comandos; se só consegue reconhecer imagens, não pode concluir diretamente as operações subsequentes. O valor do modelo de agente multimodal reside em conectar reconhecimento visual, raciocínio linguístico, geração de código, chamada de ferramentas e verificação de resultados em um único fluxo, permitindo que a IA opere em uma cadeia de tarefas mais próxima de um ambiente de escritório real. Por exemplo, em cenários de desenvolvimento de software, o modelo precisa entender capturas de tela de erros, localizar arquivos de código, modificar a lógica, executar testes e fornecer explicações de correção; em cenários de operações e escritório, o modelo precisa reconhecer páginas de back-end, extrair dados, gerar relatórios, atualizar documentos e verificar a consistência da formatação. A capacidade de entregar esse tipo de funcionalidade de forma estável impactará diretamente a velocidade com que os agentes passam de produtos de demonstração para fluxos de trabalho empresariais.

O Qwen3.7-Plus também reflete que a concorrência dos grandes modelos nacionais está mudando de uma única escala de parâmetros e capacidade de resposta geral para agentes multimodais, adaptação de cadeias de ferramentas e integração de fluxos de trabalho empresariais. A Alibaba cobre simultaneamente geração de texto, compreensão visual, voz, geração de imagens, agentes de código e modelos multimodais completos na família de modelos Qwen, apoiada por uma matriz de produtos composta por serviços em nuvem, plataformas de desenvolvedores, portas de entrada de aplicativos e APIs empresariais. Para clientes empresariais, a capacidade do modelo em si é apenas o primeiro nível; o que realmente influencia a decisão de adoção inclui também o custo de chamada, o comprimento do contexto, a velocidade de inferência, o gerenciamento de permissões, a segurança de dados, o método de implantação (privada ou em nuvem) e se pode formar uma interface estável com os sistemas de negócios existentes. Se o Qwen3.7-Plus conseguir manter um desempenho estável na compreensão de interfaces visuais e operação de ferramentas, ajudará a Alibaba a integrar ainda mais as capacidades do Qwen em cenários de P&D, escritório, atendimento ao cliente, processamento de dados, colaboração de design e automação de negócios.

As variáveis subsequentes concentram-se na taxa de sucesso de tarefas reais, capacidade de adaptação a interfaces complexas, estabilidade de execução de fluxos longos, custo de integração com sistemas empresariais e expansão do ecossistema de desenvolvedores. A concorrência de modelos de agente multimodal não é mais apenas sobre se o modelo pode responder a perguntas, mas se pode concluir tarefas continuamente, detectar erros e entregar resultados utilizáveis em processos de negócios reais. O lançamento do Qwen3.7-Plus indica que a Alibaba está continuamente direcionando o foco da iteração do modelo Qwen para aplicações de agente de nível de produção.

Este texto foi elaborado por Wedoany. Qualquer citação por IA deve indicar a fonte “Wedoany”. Em caso de infração ou outros problemas, informe-nos prontamente, por favor. O conteúdo será corrigido ou removido. E-mail: news@wedoany.com