Universidade de Stanford lança novo modelo de IA para ajudar robôs a reconhecer e transferir funções de ferramentas
2025-10-21 16:14
Fonte:Universidade de Stanford
Favoritos

Pesquisadores da Universidade de Stanford desenvolveram um modelo inovador de visão computacional que pode identificar as funções reais de partes de objetos, melhorando a eficiência da seleção e do uso de ferramentas por robôs autônomos. Modelos tradicionais de visão computacional em inteligência artificial (IA) podem reconhecer objetos em imagens bidimensionais, mas compreender as funções de partes individuais continua sendo um desafio. O novo modelo de Stanford não apenas identifica partes de objetos, mas também discerne seus usos reais, mapeando relações funcionais entre objetos pixel a pixel.

O cerne deste modelo é a capacidade de alcançar "correspondência funcional", identificando e mapeando regiões de pixels com a mesma função em diferentes categorias de objetos. Por exemplo, o modelo pode distinguir entre os bicos de uma garrafa de vidro e de um bule de chá e entender sua função de servir. "Queríamos construir um sistema de visão que suportasse generalização, permitindo a transferência de habilidades de um objeto para outro", explicou o coautor principal Stephen Stojanov. Este avanço permite que robôs distingam entre um cutelo de açougueiro e uma faca de pão, ou uma colher de pedreiro e uma espátula, e selecionem a ferramenta apropriada para uma tarefa.

Os métodos tradicionais dependem de anotações manuais para obter correspondência funcional esparsa. O novo modelo utiliza uma abordagem com supervisão fraca, utilizando um modelo de linguagem visual para gerar rótulos, exigindo apenas especialistas humanos para controlar a qualidade dos dados. Essa abordagem é mais eficiente e econômica, afirmou Linan "Frank" Zhao. "Tarefas que exigiam muito trabalho manual há apenas alguns anos agora podem ser realizadas com muito menos recursos." Por exemplo, no exemplo da chaleira e da garrafa, o modelo alinha com precisão os pixels do bico e da boca da garrafa, obtendo um mapeamento denso de características.

O sistema foi validado em testes de imagem. Embora ainda não tenha sido testado em experimentos robóticos do mundo real, a equipe acredita que ele avançará significativamente na robótica e na visão computacional. O mapeamento denso de características marca uma mudança na IA, do reconhecimento de padrões para o raciocínio de objetos, permitindo que o sistema infira intenções em vez de simplesmente identificar pixels.

Este boletim é uma compilação e reprodução de informações de parceiros estratégicos e da internet global, destinado apenas para troca de informações entre leitores. Em caso de infração ou outros problemas, por favor, informe-nos imediatamente, e este site fará as devidas modificações ou exclusões. A reprodução deste artigo é estritamente proibida sem autorização formal. E-mail: news@wedoany.com