De acordo com pt.wedoany.com-A Tashizhihang, em colaboração com a Universidade Nacional de Singapura, a Universidade Jiao Tong de Xangai, o Instituto de Automação da Academia Chinesa de Ciências e a Universidade de Fudan, publicou na plataforma de pré-impressão o artigo "TacForeSight: Force-Guided Tactile World Model for Contact-Rich Manipulation". Esta pesquisa propõe um modelo de mundo tátil condicionado por força, que, pela primeira vez, utiliza sinais de força no punho como informação precursora do estado tátil futuro para prever a evolução do contato em curto prazo, integrando os resultados da previsão no fluxo de geração de ações do robô.
Em tarefas de manipulação com contato intenso, como limpeza, encaixe e aperto, o estado de contato muda continuamente ao longo do tempo, e pequenas variações de força ou posição podem facilmente levar a falhas. Os métodos existentes dependem principalmente de sinais de feedback para ajustes posteriores. A ideia central do TacForeSight é identificar a relação temporal entre a força e o tato: a força no punho fornece um sinal precursor da tendência geral de força, enquanto o tato reflete os detalhes do contato local. Com base nisso, a equipe construiu o módulo principal TacForceWM, que codifica o campo tátil de dois dedos em variáveis latentes táteis compactas e utiliza sinais de força ou torque de alta frequência no punho para prever a evolução tátil futura de curto prazo, reduzindo a carga computacional da geração de imagens táteis de alta dimensão e utilizando as informações previstas para gerar estratégias de ação leves.

Após prever o estado tátil futuro, o sistema utiliza a Predictive Tactile-Conditioned Policy, empregando um mecanismo de Cross-Attention para modelar explicitamente a relação entre o contato atual e a tendência futura, permitindo que a geração de ações considere tanto o contato atual quanto as mudanças de contato iminentes. Simultaneamente, um mecanismo de portão adaptativo acionado pelo tato ajusta dinamicamente os pesos da visão e do tato de acordo com a fase da tarefa: em fases de contato intenso, prioriza o controle tátil; em fases sem contato, depende de informações visuais.


Os experimentos foram realizados em uma plataforma robótica real, composta por braço robótico, garra, câmera, sensor de força ou torque de seis eixos e sensores táteis de dois dedos, abrangendo cinco tarefas típicas de contato intenso: limpeza de vaso, deslizamento de cartão, inserção de tubo, aperto de lâmpada e inserção de chicote elétrico flexível. Os resultados mostram que a taxa média de conclusão em tarefas padrão é próxima de 80%, superando modelos puramente visuais, fusão simples visão-tato-força e métodos de base como KineDex, FoAR e RDP. Em cenários com perturbações dinâmicas de altura, ângulo e postura, as taxas de conclusão foram de 90%, 85% e 85%, respectivamente, com uma média de 86,7%. O modelo suporta inferência em tempo real a 20 Hz, podendo ser integrado em controle de malha fechada de alta frequência para robôs.

A análise de visualização de variáveis latentes mostra que, nas tarefas de aperto de lâmpada e limpeza de vaso, as variáveis latentes táteis previstas apresentam mudanças relacionadas ao contato aproximadamente 200 milissegundos antes das variáveis latentes táteis atuais. Em segmentos de interação força-tato não vistos, como pressão, torção e deslizamento, as variáveis latentes extraídas pelo codificador tátil formam aglomerados separáveis na visualização t-SNE, indicando que o modelo possui capacidade de discriminação de padrões de contato. Este é mais um avanço da Tashizhihang na área de manipulação de precisão; anteriormente, em março, a empresa já havia lançado o framework de manipulação visão-tátil OmniVTA e o conjunto de dados visão-tátil em larga escala OmniViTac, ajudando robôs a entender o contato através da visão e do tato.











