Nos últimos três anos, o uso de chatbots aumentou drasticamente, e sua versatilidade se deve à grande quantidade de dados textuais disponíveis na internet. No entanto, esses dados são insuficientes para ensinar robôs a se tornarem assistentes eficientes em residências ou fábricas, sendo necessário que aprendam a manipular, empilhar e posicionar objetos em diferentes ambientes por meio de aprendizado por demonstração. Coletar demonstrações com robôs reais é demorado e difícil de reproduzir perfeitamente; por isso, engenheiros passaram a utilizar inteligência artificial para gerar simulações ou ambientes digitais criados manualmente, a fim de criar dados de treinamento.
Pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) do MIT e do Toyota Research Institute desenvolveram o método de "Geração de Cenários Controlados", capaz de criar cenas digitais, como cozinhas e salas de estar, simulando numerosas interações do mundo real. O método foi treinado em mais de 44 milhões de quartos 3D, contendo modelos de objetos como mesas e pratos, utilizando modelos de difusão "guiados" para gerar ambientes fisicamente precisos e realistas. A estratégia central é a "Busca em Árvore de Monte Carlo" (MCTS), na qual o modelo cria cenários alternativos, preenchendo-os de diferentes maneiras para atingir objetivos específicos, como aumentar o realismo físico ou incluir mais itens comestíveis.
Nicholas Pfaff, pesquisador do CSAIL e autor principal do artigo, afirmou: "Aplicamos a MCTS à geração de cenários pela primeira vez, transformando a tarefa em um processo de decisão sequencial, construindo continuamente sobre partes de cenas existentes para gerar ambientes mais complexos ou ideais." Os experimentos mostraram que a MCTS consegue adicionar muitos objetos em cenas simples de restaurante, aumentando significativamente a riqueza do ambiente. A geração de cenários controlados também permite criar cenários de treinamento diversificados por meio de aprendizado por reforço, onde o usuário pode fornecer descrições visuais que o sistema implementa com precisão, superando em acurácia métodos similares.
Os pesquisadores destacam que a tecnologia permite criar cenários que robôs especialistas realmente utilizariam, gerando ambientes diversificados, realistas e relevantes para as tarefas. Esses cenários amplos funcionam como campos de teste, registrando interações de robôs virtuais com diferentes objetos de maneira fluida e realista. No futuro, pretendem utilizar inteligência artificial generativa para criar novos objetos e cenários, incorporar objetos articulados para maior interatividade e explorar bibliotecas de imagens da internet para expandir diversidade e realismo, além de criar comunidades de usuários que gerem grandes volumes de dados para ensinar diversas habilidades aos robôs.
Jeremy Binagia, cientista aplicado da Amazon Robotics, comentou: "A geração de cenários controlados oferece uma abordagem melhor, garantindo viabilidade física e criando ambientes mais interessantes." Rick Cory, especialista em robótica do Toyota Research Institute, afirmou: "Este método fornece uma estrutura nova e eficiente para geração automática de cenários em larga escala, representando um marco promissor para treinar robôs de forma eficiente e implantá-los no mundo real."













京公网安备 11010802043282号