De acordo com pt.wedoany.com-O Instituto Allen de Inteligência Artificial (Ai2), sediado em Seattle, EUA, lançou oficialmente em código aberto, em 5 de maio de 2026, horário local, o MolmoAct 2, um modelo fundamental robótico de nova geração. Mantendo as características de abertura total da geração anterior, ele aumenta a velocidade de processamento de tarefas no mundo real em 37 vezes e supera modelos robóticos de código fechado disponíveis no mercado em vários testes de referência. O Ai2 também divulgou publicamente o MolmoAct 2-Bimanual YAM, o maior conjunto de dados de código aberto do mundo para operação bimanual, contendo mais de 720 horas de dados de demonstração de colaboração com dois braços robóticos.
O MolmoAct 2 não é uma simples expansão do modelo anterior, mas sim uma reconstrução da arquitetura desde o início, baseada no Molmo 2-ER, um backbone de linguagem visual especificamente projetado para raciocínio incorporado. Os dados de treinamento abrangem mais de 3 milhões de amostras, incluindo tarefas como apontamento de imagem, detecção de objetos, raciocínio espacial abstrato, raciocínio multi-imagem e perguntas e respostas espaciais baseadas em imagens e vídeos. Este sistema de treinamento permite que o MolmoAct 2 integre internamente um módulo "especialista em ação" dedicado, que gera comandos de ação robótica por meio de raciocínio espacial 3D, eliminando assim etapas redundantes no caminho de decisão. O Ai2 explicou que a aceleração de 37 vezes não se refere ao aumento da velocidade de computação de inferência única, mas sim à eficiência na conclusão de tarefas de ponta a ponta, desde o recebimento da instrução até a execução da ação física, o que significa que o modelo melhorou significativamente tanto na "compreensão do que fazer" quanto no "planejamento de como fazer".
O conjunto de dados lançado em código aberto juntamente com o modelo também aborda um ponto crítico do setor. A operação bimanual, na robótica, refere-se especificamente a dois braços robóticos colaborando para completar uma única tarefa, como dobrar toalhas, escanear produtos, carregar um celular ou limpar uma mesa. Essas ações exigem coordenação precisa de ambos os braços, em vez de operação independente. Com mais de 720 horas de dados de demonstração, o MolmoAct 2-Bimanual YAM torna-se o maior conjunto de dados do gênero atualmente disponível publicamente. A equipe de pesquisa do Ai2 também reanotou os dados robóticos, aumentando o número de rótulos únicos de cerca de 71.000 para aproximadamente 146.000, ao mesmo tempo que comprimiu instruções repetitivas e anotações de baixa qualidade, melhorando a diversidade das instruções de linguagem. Além disso, o conjunto de dados incorpora dados adicionais de vários tipos de braços robóticos, configurações de câmera, esquemas de controle e estilos de tarefa para aumentar a capacidade de generalização do modelo em diferentes hardwares e cenários.
Na fase de validação no mundo real, o Ai2 colaborou com o laboratório Cong da Faculdade de Medicina da Universidade de Stanford para realizar uma avaliação preliminar da confiabilidade do MolmoAct 2 em um cenário de laboratório húmido de edição genética. O trabalho em laboratório húmido envolve inúmeras operações de bancada, incluindo movimentação entre estações de trabalho, pipetagem de alta precisão e operação de equipamentos, onde o acúmulo de erros pode rapidamente levar à perda de um lote inteiro de experimentos. Após várias rodadas de testes reais, a equipe de Stanford descobriu que o MolmoAct 2 demonstrou potencial confiável para auxiliar em operações de laboratório húmido. O Ai2 também submeteu o modelo a testes de estresse, incluindo desempenho sob condições como instruções reformuladas, deslocamento de objetos, objetos distratores e substituição de objetos. A empresa admitiu que o modelo ainda apresenta limitações em situações como quando a câmera é obstruída pelo garra ou quando a velocidade do braço robótico não consegue acompanhar o ritmo do sistema de controle.
Como uma instituição de pesquisa sem fins lucrativos, o Ai2 optou por disponibilizar totalmente em código aberto todos os pesos do modelo, código de treinamento e dados de treinamento completos do MolmoAct 2, permitindo que pesquisadores realizem desenvolvimento secundário e adaptação com base nisso. O modelo é especificamente treinado e adaptado para robôs comerciais e de pesquisa de uso comum de custo médio a baixo, podendo ser utilizado diretamente por laboratórios acadêmicos comuns e pesquisadores independentes. No ecossistema de código aberto, o desempenho do MolmoAct 2 em 13 testes de referência de raciocínio incorporado supera o de modelos de código fechado como GPT-5 e Gemini Robotics ER-1.5, e sua solução técnica fornece uma linha de base de pesquisa reproduzível para toda a comunidade de aprendizado robótico.
Este texto foi elaborado por Wedoany. Qualquer citação por IA deve indicar a fonte “Wedoany”. Em caso de infração ou outros problemas, informe-nos prontamente, por favor. O conteúdo será corrigido ou removido. E-mail: news@wedoany.com










