OmniXtreme: Quebrando a "Barreira de Generalidade" do Controle Dinâmico de Robôs Humanoides, Uma Única Estratégia Domina 24 Movimentos Extremos com Taxa de Sucesso Superior a 91% Apresentação da Tecnologia_Aplicação da Tecnologia

OmniXtreme: Quebrando a "Barreira de Generalidade" do Controle Dinâmico de Robôs Humanoides, Uma Única Estratégia Domina 24 Movimentos Extremos com Taxa de Sucesso Superior a 91%

2026-03-11 12:06

Favoritos

Fazer um robô dar um mortal para trás não é difícil; fazer o mesmo robô conseguir dar um mortal para trás, executar o "punho bêbado" do Kung Fu, dançar breakdance e fazer o movimento "Thomas Flair" — esse é o verdadeiro desafio. O Instituto de Inteligência Artificial Geral de Pequim, em conjunto com a Unitree Robotics, a Universidade de Shanghai Jiao Tong, a Universidade de Ciência e Tecnologia da China e outras instituições, propôs pela primeira vez a estrutura OmniXtreme, conseguindo com sucesso que um único robô dominasse dezenas de movimentos extremos de alta dinâmica, alcançando uma taxa de sucesso geral de 91,08% em implantações no mundo real, quebrando completamente o "compromisso entre fidelidade e escalabilidade" no controle de movimento de robôs humanoides.

1. O Dilema do "Estudante com Desempenho Desigual" dos Robôs Humanoides

Desde o robô "tremendo" da dança Yangge em 2024, até os movimentos fluidos de mortal para trás, chute lateral, manuseio de nunchaku e execução do "punho bêbado" no espetáculo "WuBOT" do Festival da Primavera de 2026, a capacidade motora dos robôs humanoides passou por uma rápida iteração nos últimos dois anos. No entanto, um problema fundamental de longa data sempre incomodou os pesquisadores: o "compromisso entre fidelidade e escalabilidade".

Simplificando, os robôs atuais são como "estudantes com desempenho desigual" — podem ser campeões em uma disciplina específica, como realizar um mortal para trás com precisão; mas ao tentar ensinar dezenas de movimentos com estilos e dinâmicas radicalmente diferentes para o mesmo robô, seu aprendizado fica significativamente prejudicado: o controlador se torna conservador e medíocre, falhando frequentemente nos movimentos mais desafiadores.

Wang Xingxing, fundador da Unitree Robotics, admitiu abertamente na Conferência Mundial de Robótica de 2025: "Atualmente, existe o problema da Lei de Escala do Aprendizado por Reforço (RL Scaling Law) no campo do controle de movimento de robôs. Por exemplo, se tenho uma nova dança para treinar, cada vez que adiciono um novo movimento, preciso treinar novamente desde o início." Ele espera que no futuro seja possível alcançar a acumulação contínua de habilidades e a transferência de aprendizado, permitindo que os robôs expandam continuamente novas habilidades com base nas capacidades existentes.

2. Destaques da Inovação Científica: A Estrutura de Treinamento em Duas Fases que Quebra a "Barreira de Generalidade"

Em 27 de fevereiro de 2026, o Instituto de Inteligência Artificial Geral de Pequim (BIGAI), a Unitree Robotics, a Universidade de Shanghai Jiao Tong, a Universidade de Ciência e Tecnologia da China e outras instituições publicaram conjuntamente no servidor de pré-impressão arXiv o artigo "OmniXtreme: Breaking the Generality Barrier in High-Dynamic Humanoid Control", propondo pela primeira vez a estrutura OmniXtreme, que resolve sistematicamente o problema da generalidade no controle de alta dinâmica de robôs humanoides.

A equipe de pesquisa analisou e apontou que a causa fundamental do fracasso dos métodos tradicionais no controle de múltiplos movimentos de alta dinâmica reside em dois gargalos que se sobrepõem:

Gargalo de Aprendizado na Simulação: Os métodos existentes geralmente usam representações de rede de políticas simples, cuja capacidade expressiva satura rapidamente com o aumento da diversidade de dados diante de objetivos de ação heterogêneos; ao mesmo tempo, treinar múltiplas tarefas de forma unificada com Aprendizado por Reforço agrava a interferência de gradientes, levando a comportamentos conservadores médios ou falhas seletivas em comportamentos de alta dinâmica.

Gargalo de Executabilidade Física: Mesmo com excelente desempenho na simulação, a transferência para o robô real ainda enfrenta desafios, porque a modelagem existente ignora características-chave do acionador, como a não linearidade torque-velocidade e a potência regenerativa, fatores que podem causar instabilidade de execução em movimentos de alta dinâmica.

Destaque 1: Pré-treinamento Generativo Baseado em Fluxo — Fazendo o Robô "Ler Amplamente"

A primeira fase do OmniXtreme adota uma política de controle generativa baseada em fluxo (flow-based generative control policy), fundindo habilidades de alta dinâmica dispersas em diferentes "políticas especialistas" em uma única "política base" unificada por meio de destilação de conhecimento.

A equipe de pesquisa primeiro integrou vários conjuntos de dados de movimento de alta qualidade, como LAFAN1, AMASS e MimicKit, e os redirecionou para o robô humanoide Unitree G1. Para esses movimentos de referência, a equipe treinou uma série de políticas especialistas usando o algoritmo PPO. Em seguida, o OmniXtreme usou um algoritmo de correspondência de fluxo baseado em agregação de conjuntos de dados (DAgger) para fundir unificadamente os comportamentos dessas políticas especialistas em uma política generativa baseada em correspondência de fluxo.

A vantagem central desse método é: aprender um "campo de velocidade" por meio de modelagem generativa, em vez de um mapeamento de ação simples, gerando assim ações de controle contínuas de alta precisão durante a inferência por meio de integração de Euler direta, evitando efetivamente a interferência de gradientes em múltiplas tarefas típica do Aprendizado por Reforço tradicional.

Destaque 2: Pós-treinamento Residual com Consciência do Acionador — Fazendo o Robô "Enfrentar a Realidade"

A política de correspondência de fluxo obtida no pré-treinamento, embora tenha demonstrado precisão de rastreamento impressionante na simulação, frequentemente vê seu desempenho de alta dinâmica prejudicado pelas características não lineares dos motores no mundo real. Para alcançar uma transferência suave "da simulação para a realidade", a equipe congelou a política base pré-treinada e treinou uma política residual leve de MLP sobre ela.

Para fazer a política residual compreender verdadeiramente as adversidades do mundo físico, a equipe introduziu três níveis de modelagem profunda no ambiente de treinamento:

Randomização de Domínio Agressiva: Ampliou significativamente os intervalos de parâmetros como ruído de postura inicial, magnitude de perturbação de força externa e velocidade angular, ao mesmo tempo que relaxou o limite de término em 1,5 vez, dando espaço de exploração suficiente para a política residual.

Regularização de Acionamento com Segurança de Potência: Introduziu inovadoramente um mecanismo de penalização direcionado à potência mecânica, focando principalmente nos joelhos, para evitar a ativação da proteção contra sobrecorrente do hardware ou falha por estresse térmico durante movimentos de alta dinâmica.

Restrições de Torque e Velocidade com Consciência do Acionador: Integrou diretamente a envoltória de operação real do motor no simulador, enquanto modelava com precisão as perdas internas no nível do atuador por meio de termos de atrito não linear.

Destaque 3: Avanço de Desempenho — Taxa de Sucesso Geral de 91,08% em 24 Movimentos

No robô real Unitree G1, o OmniXtreme permitiu que uma única política completasse 24 movimentos de alta dinâmica, com uma taxa de sucesso geral de 91,08% em 157 tentativas. Entre eles:

Categoria de Movimento	Taxa de Sucesso
Mortal para trás, etc.	96,36%
Artes marciais	93,33%
Breakdance	86,36%

No ambiente de simulação, o OmniXtreme foi comparado diretamente com métodos tradicionais. Diante do conjunto de dados de movimentos extremos XtremeMotion, criado pela própria equipe, o erro de rastreamento dos métodos tradicionais aumentou significativamente, enquanto o OmniXtreme manteve um erro cinemático extremamente baixo e uma taxa de sucesso muito alta.

Destaque 4: Validação por Teste de Estresse — Quebrando Verdadeiramente o Compromisso "Fidelidade-Escalabilidade"

Para verificar se o sistema realmente quebrou a barreira de generalização, a equipe projetou um teste de estresse progressivo. Eles expandiram gradualmente o conjunto de movimentos de treinamento de 10 para 20 e, finalmente, para 50, usando um conjunto fixo dos 10 primeiros movimentos para avaliação unificada.

Os resultados experimentais revelaram uma diferença marcante: com o aumento da diversidade de movimentos, o modelo de linha de base de Aprendizado por Reforço treinado do zero apresentou uma grave deterioração de desempenho, com a taxa de sucesso caindo de 100% para 83,3% e, finalmente, para 73,9%. Em contraste, o OmniXtreme mostrou uma resiliência surpreendente: mesmo com o enorme conjunto de treinamento de 50 movimentos, a taxa de sucesso de rastreamento dos movimentos principais permaneceu firme em 93,3%.

Destaque 5: Validação da Lei de Escala (Scaling Law) do Tamanho do Modelo

No desenvolvimento da inteligência artificial, aumentar o número de parâmetros do modelo muitas vezes leva a saltos de desempenho, mas essa regra parecia não se aplicar no campo tradicional de controle de movimento. A equipe comparou o desempenho de modelos com diferentes escalas de parâmetros (20M, 50M, 70M).

Os dados dos gráficos mostraram que as políticas tradicionais de MLP atingiram rapidamente a saturação de desempenho após a expansão do número de parâmetros, com ganhos de precisão de rastreamento extremamente limitados. Em contraste marcante, a política generativa baseada em correspondência de fluxo se alinhou perfeitamente com a Lei de Escala — à medida que o número de parâmetros se aproximava de 70M, a precisão de rastreamento e a robustez do OmniXtreme mostraram um crescimento linear significativo.

Destaque 6: Latência de Inferência End-to-end de Apenas 10 Milissegundos

Em termos de implantação de hardware, o OmniXtreme demonstrou um alto grau de completude de engenharia. Todo o pipeline de inferência (incluindo estimativa de estado baseada em cinemática direta, política base de correspondência de fluxo e política residual) foi profundamente otimizado usando TensorRT. Na plataforma embarcada NVIDIA Jetson Orin NX do robô humanoide Unitree G1, o sistema alcançou uma latência de inferência end-to-end de cerca de 10 milissegundos, suportando perfeitamente o controle em malha fechada de alta frequência de 50 Hz.

3. Conotação Técnica: A Evolução em Duas Fases, de "Aprendizado por Imitação" para "Movimentos Extremos"

A estrutura geral do OmniXtreme compreende três fases interligadas:

Fase de Pré-treinamento: Treina uma política base unificada usando o método de correspondência de fluxo baseado em DAgger, agregando conhecimentos prévios diversificados de movimentos a partir de múltiplas políticas especialistas focadas em movimentos únicos.

Fase de Pós-treinamento: A política base pré-treinada é congelada, e uma política residual leve é otimizada sob restrições rigorosas do motor, randomização de domínio agressiva e regularização de segurança de potência, preenchendo a lacuna dinâmica entre o ambiente de simulação e o mundo físico real.

Fase de Implantação Embutida: Todo o fluxo de inferência é otimizado para ser executado em tempo real e completamente no computador embarcado do robô.

Huang Siyuan, diretor do Centro de Robótica Embodied do Instituto de Inteligência Artificial Geral de Pequim, revelou nas redes sociais: "Passamos um ano inteiro investigando profundamente as barreiras entre o rastreamento geral e os comportamentos físicos extremos. Após testar dezenas de unidades do G1, finalmente identificamos os gargalos na aprendizagem e na capacidade de execução física."

4. Perspectivas de Aplicação: De "Movimentos Extremos" para "Cenários Reais"

1. Estabelecendo a Base para Aplicações em Cenários Complexos

Muitos consideram que movimentos como mortais para trás e breakdance parecem irrelevantes para cenários práticos. Sobre isso, o pesquisador Jia Baoxiong, do BIGAI, deu uma explicação profunda: "Do ponto de vista da pesquisa científica, se um robô pode realizar esses movimentos extremos, geralmente também pode lidar com vários cenários de trabalho que os humanos podem fazer. É equivalente a primeiro 'fortalecer o corpo' — se o robô pode dominar a capacidade de controle dos movimentos extremos humanos, então executar tarefas em cenários industriais, de serviço, etc., se tornará mais fácil."

2. Manufatura Industrial e Inspeção

Atualmente, tecnologias relacionadas já estão sendo testadas em cenários como inspeção de rede elétrica e fabricação de automóveis. A capacidade de equilíbrio de alta dinâmica e resistência a interferências alcançada pela estrutura OmniXtreme fornece uma base para que os robôs operem de forma estável em ambientes industriais complexos.

3. Ecossistema de Código Aberto Impulsionando o Desenvolvimento da Indústria

Atualmente, o artigo de pesquisa relacionado, os pontos de verificação do modelo e o código foram oficialmente disponibilizados como código aberto. A equipe de pesquisa também revelou que, no futuro, liberará gradualmente mais recursos, incluindo códigos de treinamento e inferência da política base de correspondência de fluxo, códigos de pós-treinamento residual e inferência, e códigos de implantação real em C++. Isso significa que pesquisadores e desenvolvedores em todo o mundo podem, com base na estrutura OmniXtreme, treinar seus próprios robôs humanoides para aprender várias habilidades de movimento de alta dinâmica, acelerando enormemente o desenvolvimento no campo do controle de movimento de robôs humanoides.

5. Significado Industrial: A Transição de Paradigma de "Habilidade Única" para "Capacidade Geral"

O valor profundo desta pesquisa reside em redefinir os limites de capacidade do controle de movimento de robôs humanoides. No passado, os robôs humanoides eram ou "especializados em uma coisa" ou "medíocres em tudo". O OmniXtreme provou pela primeira vez: alta fidelidade e uma grande biblioteca de movimentos podem ser alcançadas simultaneamente.

Como afirma o artigo: "O OmniXtreme, através de um design desacoplado de pré-treinamento generativo e pós-treinamento com consciência do acionador, permite que uma única política aprenda em escala habilidades diversificadas e seja implantada de forma robusta em hardware físico, efetivamente superando o gargalo de fidelidade-escalabilidade no controle tradicional de robôs humanoides de alta dinâmica."

Quando os robôs humanoides evoluem da "reprodução de habilidades" para a "capacidade geral", talvez estejam a apenas uma última "ruptura" de realmente entrarem em cenários industriais, de serviço e domésticos.

Fonte: Instituto de Inteligência Artificial Geral de Pequim (BIGAI), Unitree Robotics, Universidade de Shanghai Jiao Tong, Universidade de Ciência e Tecnologia da China; Autores: Primeiro autor — Wang Yunshen (BIGAI-Universidade de Shanghai Jiao Tong programa conjunto), Zhu Shaohang (BIGAI-Universidade de Ciência e Tecnologia da China programa conjunto); Autores correspondentes — Jia Baoxiong, Huang Siyuan (Instituto de Inteligência Artificial Geral de Pequim); Autores incluem Wang Xingxing, fundador da Unitree Robotics; Título: OmniXtreme: Breaking the Generality Barrier in High-Dynamic Humanoid Control; Publicado em: arXiv (27 de fevereiro de 2026).

China

Indústrias Tradicionais Fabricação de Equipamentos de Alta Tecnologia

Este boletim é uma compilação e reprodução de informações de parceiros estratégicos e da internet global, destinado apenas para troca de informações entre leitores. Em caso de infração ou outros problemas, por favor, informe-nos imediatamente, e este site fará as devidas modificações ou exclusões. A reprodução deste artigo é estritamente proibida sem autorização formal. E-mail: news@wedoany.com

Anterior：Equipa de Investigação Espanhola Desenvolve Estratégia de Síntese Híbrida para Construir Novas Estruturas Moleculares

Próximo：Cientistas europeus desenvolvem ferramenta de IA para auxiliar na pesquisa sobre as origens do câncer