Para ajudar as máquinas a aprimorarem suas capacidades de percepção visual necessárias para compreender o mundo, pesquisadores desenvolveram um novo conjunto de dados de treinamento, o RoboSpatial, projetado para aprimorar a consciência espacial dos robôs. Em um novo estudo, robôs treinados com o conjunto de dados RoboSpatial superaram aqueles treinados com modelos de referência na mesma tarefa, demonstrando uma compreensão sofisticada das relações espaciais e da manipulação de objetos físicos.

A percepção visual humana molda a forma como interagimos com o ambiente, mas os robôs apresentaram melhorias limitadas em habilidades relacionadas devido à falta de dados sobre a compreensão espacial complexa. Luke Song, doutorando em engenharia na Universidade Estadual de Ohio, destaca que a compreensão espacial profunda é essencial para a interação intuitiva, e os desafios não resolvidos no raciocínio espacial impedirão que os futuros sistemas de IA compreendam instruções complexas e operem em ambientes dinâmicos. Ele afirma: "Para ter um modelo fundamental verdadeiramente universal, os robôs precisam compreender o mundo tridimensional ao seu redor, e a compreensão espacial é uma das capacidades mais importantes para os robôs."
O conjunto de dados RoboSpatial contém mais de um milhão de imagens reais de ambientes internos e de mesas, milhares de digitalizações 3D detalhadas e três milhões de rótulos que descrevem informações espaciais ricas e relevantes para robôs. Usando esses recursos, a estrutura combina imagens egocêntricas 2D com digitalizações 3D completas da mesma cena, permitindo que o modelo aprenda a localizar objetos com precisão usando reconhecimento de imagem plana ou métodos geométricos 3D. Comparado a conjuntos de dados de treinamento existentes, o RoboSpatial testa rigorosamente as capacidades de raciocínio espacial em tarefas robóticas do mundo real, demonstrando primeiro o rearranjo de objetos e, em seguida, testando a capacidade de generalização do modelo em novos cenários de raciocínio espacial.
Um dos sistemas de teste da equipe, o robô Kinova Jaco, atua como um braço assistivo para ajudar pessoas com deficiência a se conectarem com o ambiente. Durante o treinamento, ele respondeu corretamente a perguntas espaciais simples e complexas, como "A cadeira pode ser colocada na frente da mesa?" ou "A xícara está à esquerda do laptop?". Luke Song afirmou que esses resultados significam que, ao aprimorar a percepção do ambiente espacial pelo robô, é possível alcançar sistemas de IA mais seguros e confiáveis. Embora muitos mistérios permaneçam em relação ao desenvolvimento e treinamento de IA, o RoboSpatial tem o potencial de se tornar a base para aplicações mais amplas em robótica e pode levar a avanços ainda mais empolgantes na tecnologia espacial.














