A Alibaba, da China, lança a série Qwen-Robot para impulsionar a implementação de modelos de inteligência incorporada
2026-06-16 14:05
Favoritos

De acordo com pt.wedoany.com-Em 16 de junho, a Alibaba lançou a série de grandes modelos de inteligência incorporada Qwen-Robot, que inclui três modelos principais: o modelo de operação VLA Qwen-RobotManip, o modelo de navegação VLN Qwen-RobotNav e o modelo de mundo Qwen-RobotWorld. Esta é a primeira série completa de modelos de inteligência incorporada da família de grandes modelos Qwen, voltada respectivamente para operação robótica, navegação móvel e compreensão ambiental. Eles podem ser implantados individualmente ou operar em conjunto, fornecendo uma base de modelo universal para robôs de diferentes formas entrarem em cenários reais.

A chave da inteligência incorporada é permitir que a IA não apenas compreenda e gere conteúdo em textos, imagens e vídeos, mas também interaja com o mundo físico. Para trabalhar em ambientes reais, os robôs precisam realizar simultaneamente múltiplas capacidades, como "ver objetos, entender tarefas, planejar trajetórias, controlar ações e avaliar resultados". A série Qwen-Robot divide a operação, a navegação e a modelagem do mundo em três direções de modelo, indicando que a Alibaba deseja estender as capacidades dos grandes modelos universais para a cadeia de ações robóticas, em vez de se limitar apenas ao nível de diálogo ou reconhecimento visual.

O Qwen-RobotManip é um modelo de operação VLA, onde VLA significa modelo de visão-linguagem-ação, focado em resolver o problema das "mãos" do robô. Ao lidar com objetos de mesa, ferramentas, peças ou utensílios domésticos, o robô precisa identificar o alvo, entender as instruções e gerar ações executáveis, como agarrar, mover, colocar, abrir/fechar e organizar. O controle robótico tradicional depende de programas fixos e ambientes estruturados; quando a posição do objeto, o fundo, a iluminação ou a expressão da tarefa mudam, a capacidade de generalização tende a diminuir. O valor do modelo VLA está em colocar a percepção visual, as instruções de linguagem e o controle de ações em um mesmo quadro, permitindo que o robô gere estratégias de ação com base em linguagem natural e imagens da cena.

O Qwen-RobotNav é um modelo de navegação VLN, onde VLN significa modelo de navegação visual-linguística, focado em resolver o problema dos "pés" do robô. Quando robôs de serviço, robôs de inspeção, robôs quadrúpedes e plataformas móveis entram em ambientes como escritórios, fábricas, armazéns, parques industriais ou residências, eles precisam entender "para onde ir, como chegar, o que evitar e o que fazer ao chegar". A navegação móvel não é apenas planejamento de trajetória; envolve também compreensão semântica espacial, desvio de obstáculos, seguimento de instruções em múltiplas etapas e confirmação da localização da tarefa. O modelo VLN permite que o robô correlacione objetivos de linguagem com o ambiente visual, realizando assim tarefas de navegação em ambientes abertos mais complexos.

O Qwen-RobotWorld assume o papel de modelo de mundo, focado em resolver o problema do "cérebro" do robô. O modelo de mundo é usado para entender relações entre objetos, estruturas espaciais, consequências de ações e mudanças ambientais, ajudando o robô a prever e planejar antes da execução. Se o robô apenas executa ações passo a passo conforme as instruções, terá dificuldade em lidar com situações inesperadas no mundo real; o modelo de mundo permite que o sistema estime "o que acontecerá depois de fazer isso" e ajuste a estratégia durante a tarefa. Para cenários industriais, logísticos, de serviços comerciais e domésticos, essa capacidade é crucial para que o robô passe de tarefas demonstrativas para operações contínuas.

A Alibaba já havia realizado pesquisas na direção do Qwen-VLA. De acordo com materiais técnicos oficiais do Qwen-VLA, o modelo unifica operação, navegação e previsão de trajetórias em um quadro comum de previsão de ações e trajetórias, e se adapta a diferentes plataformas robóticas por meio de prompts de percepção incorporada. A pesquisa relacionada enfatiza que um modelo unificado pode atender a múltiplas plataformas incorporadas, sem a necessidade de projetar cabeças de saída separadas para cada plataforma. Com o lançamento da série Qwen-Robot, a rota de inteligência incorporada do Qwen avança de um quadro de pesquisa para um sistema de modelos mais orientado a produtos.

Do ponto de vista industrial, o lançamento da série Qwen-Robot ocorre no contexto da aceleração da implementação de robôs humanoides, robôs móveis e agentes inteligentes industriais. As empresas de robótica geralmente enfrentam um problema: o progresso do hardware físico é relativamente rápido, mas a capacidade de tarefas universais, a capacidade de generalização de cenários e o ciclo fechado de dados ainda são gargalos. Diferentes formas de robôs têm sensores, juntas, atuadores e métodos de controle bastante diversos; se cada produto treinar um modelo do zero, o custo é alto, o ciclo é longo e é difícil acumular capacidades entre plataformas. O objetivo dos grandes modelos de inteligência incorporada é fornecer capacidades reutilizáveis de percepção, compreensão, planejamento e geração de ações para diferentes robôs.

Para a Alibaba, a série Qwen-Robot também completa um elo na cadeia do grande modelo Qwen, que vai da linguagem, multimodalidade, agente até a interação com o mundo físico. Os grandes modelos universais estão passando da execução de tarefas online para a execução em cenários reais, e os robôs precisam que os grandes modelos forneçam capacidades mais fortes de compreensão de tarefas e planejamento de ações. No futuro, se os modelos incorporados poderão realmente ser implementados dependerá da interface de hardware do robô, da escala dos dados de treinamento, da transferência entre simulação e ambiente real, dos limites de segurança de ação e da adaptação a cenários industriais. O lançamento do modelo é apenas o ponto de partida; os resultados da validação subsequente em armazenagem, inspeção, manufatura, serviços comerciais e serviços domésticos determinarão seu valor industrial.

O significado da série Qwen-Robot reside no fato de que a Alibaba começa a entrar no núcleo da inteligência incorporada com uma combinação completa de modelos. O VLA resolve a operação, o VLN resolve a navegação, e o modelo de mundo resolve a compreensão ambiental e o planejamento. Com a sinergia dos três, os robôs têm a oportunidade de passar da execução de habilidades únicas para o processamento de tarefas em múltiplas etapas. À medida que a inteligência incorporada passa dos laboratórios para ambientes de trabalho reais, a base de modelos universais, a capacidade de adaptação de hardware e o ciclo fechado de dados de cenários se tornarão variáveis-chave na competição da indústria robótica.

Este texto foi elaborado por Wedoany. Qualquer citação por IA deve indicar a fonte “Wedoany”. Em caso de infração ou outros problemas, informe-nos prontamente, por favor. O conteúdo será corrigido ou removido. E-mail: news@wedoany.com