Equipa da Universidade de Ciência e Tecnologia de Xi'an e outros propõem modelo de perceção de IA leve, impulsionando a condução autónoma em minas a céu aberto a ultrapassar o limiar de reconhecimento em ambientes complexos Apresentação da Tecnologia_Aplicação da Tecnologia

Equipa da Universidade de Ciência e Tecnologia de Xi'an e outros propõem modelo de perceção de IA leve, impulsionando a condução autónoma em minas a céu aberto a ultrapassar o limiar de reconhecimento em ambientes complexos

2026-05-06 17:42

Favoritos

Quando um camião de mineração autónomo de cem toneladas se desloca a alta velocidade numa mina a céu aberto, precisa de manter com precisão uma distância de segurança de dezenas de tipos de alvos, como outros veículos em movimento, pessoal de manutenção e pedras soltas. No entanto, a frente de lavra de uma mina a céu aberto não é uma estrada convencional — as interferências visuais complexas e variáveis causadas pela baixa iluminância, alta concentração de poeira, operação contínua 24 horas e alvos de múltiplas escalas na zona de extração estão a tornar-se o maior "obstáculo de perceção" que restringe a aplicação segura em larga escala de camiões de mineração autónomos.

Para responder a este desafio do setor, recentemente, a Universidade de Ciência e Tecnologia de Xi'an, em colaboração com o Instituto de Automação da Academia Chinesa de Ciências e a Zhongke Huituo (Pequim) Technology Co., Ltd., publicou um importante resultado de investigação na revista internacional de renome "Journal of Industrial and Mining Automation". O "modelo leve de deteção de objetos de múltiplas escalas — modelo YOLOv11n melhorado", proposto pela equipa de investigação, através de uma série de inovações algorítmicas, aumentou eficazmente a precisão de perceção e a eficiência de implementação em dispositivos de borda para camiões de mineração autónomos em condições operacionais extremas.

Condições extremas, o "dilema de perceção" dos modelos tradicionais

A frente de lavra de uma mina a céu aberto é um ambiente típico de "desafio visual": a iluminação é insuficiente no fundo da cava, a poeira durante o dia é como uma tempestade de areia e, ao mesmo tempo, o camião de mineração precisa de identificar alvos de múltiplas escalas num raio de centenas de metros, desde cascalho e valas próximas até veículos e pessoas distantes. Os modelos tradicionais de deteção de objetos ou possuem alta precisão com um grande número de parâmetros, sendo difíceis de executar em dispositivos de borda embarcados, ou, após compressão para leveza, falham frequentemente na deteção de alvos de múltiplas escalas que aparecem simultaneamente. Este problema central tem sido consistentemente o principal fator limitante para a indústria mineira transitar da "condução autónoma pontual" para uma "operação segura de dezenas de milhares de quilómetros".

Quebrando as amarras, quatro módulos centrais iluminam os "olhos inteligentes" do camião de mineração

Para resolver os dois grandes problemas de queda de precisão e explosão da escala de parâmetros causados pela baixa iluminância, interferência de alta poeira e reconhecimento simultâneo de alvos de múltiplas escalas, a equipa de investigação integrou quatro módulos inovadores na estrutura de rede padrão YOLOv11n, alcançando um novo equilíbrio entre precisão e eficiência de implementação.

1. Módulo Token Misto (MToken): Quebrando o obstáculo da extração de características de múltiplas escalas

A equipa de investigação introduziu a tecnologia MToken no módulo C3k2 das camadas superficiais da rede principal, utilizando convoluções paralelas com ramos de múltiplas taxas de dilatação para alcançar uma capacidade refinada de extração de características para objetos de diferentes tamanhos. Quando veículos distantes e minúsculos coexistem com enormes equipamentos de escavação próximos, o módulo MToken pode realizar uma representação visual mais equilibrada de múltiplos objetos com grandes diferenças de escala simultaneamente.

2. Módulo de Múltiplas Tabelas de Consulta (MuLUT): Melhorando a capacidade de discriminação semântica profunda

Nos módulos C3k2 mais profundos, a equipa introduziu inovadoramente uma estrutura de múltiplas tabelas de consulta para realizar modelação semântica avançada e discriminação de alvos de múltiplas escalas, fortalecendo ainda mais a confiança no reconhecimento de alvos potencialmente perigosos em condições operacionais complexas, como grandes inclinações, oclusões e sobreposições parciais.

3. Módulo de Auto-Atenção com Melhoria de Luminância (ILSA): Conferindo ao modelo capacidade de "visão noturna"

Para cenários típicos de baixa iluminância e iluminação não uniforme no fundo da cava, a equipa de investigação projetou um módulo ILSA dedicado, que realiza codificação de contexto global e realce não linear local diretamente dentro do mapa de características, melhorando significativamente a qualidade da representação de características do modelo em condições complexas de pouca luz, libertando o camião de mineração do "ponto cego de visão" nos cantos escuros da frente de lavra.

4. Transformador Esparso de Pirâmide E-PST: Equilibrando fusão eficiente e leveza

Na estrutura da pirâmide de características do pescoço do modelo, a equipa propôs um Transformador Esparso de Pirâmide Melhorado (E-PST), utilizando uma estratégia de seleção adaptativa Top-k e técnicas de realce de características entre escalas. Enquanto realiza uma fusão eficiente de características para alvos de múltiplas escalas, reduz significativamente a redundância computacional, garantindo o funcionamento fluido do modelo em dispositivos de borda como chips embarcados em veículos.

Dados mostram a verdadeira capacidade: Duplo avanço em precisão e eficiência

Para verificar o desempenho do modelo, a equipa construiu uma referência de avaliação para condução autónoma em minas a céu aberto baseada principalmente no conjunto de dados Automine, e submeteu o modelo melhorado a testes comparativos rigorosos com SSD tradicional, Faster R‑CNN, bem como os modelos YOLOv11n, YOLOv12n e YOLOv13n convencionais em uso na indústria.

Aumento significativo da precisão: Em comparação com o modelo de referência YOLOv11n, o novo modelo aumentou o mAP@0.5 em 3,7% e o mAP@0.5-0.95 em 5,6%, alcançando um salto de precisão sob uma estrutura leve.

Redução notável do modelo: O número de parâmetros, a carga computacional e o tamanho do modelo foram reduzidos em 26,7%, 30,2% e 21,8%, respetivamente, com o número de parâmetros a cair para menos de dois terços dos modelos de deteção convencionais.

Implementação eficiente na borda: O modelo melhorado foi implementado no dispositivo de borda Jeston AGX Xavier para testes reais, alcançando uma velocidade de inferência estável de 27,6 quadros/s, com um volume final do modelo de apenas 2,673 MiB. O reconhecimento de pessoas e veículos foi preciso e estável, satisfazendo plenamente as necessidades de computação de perceção rápidas e compactas do camião de mineração.

Modelo leve impulsiona novo rumo para minas inteligentes

O valor central desta investigação reside em fornecer um caminho de engenharia "leve, de alta precisão e fácil de implementar" para a perceção ambiental da condução autónoma em minas a céu aberto. Este modelo melhorado possui a tripla vantagem de alta taxa de reconhecimento, baixo número de parâmetros e baixo consumo computacional, sendo particularmente adequado para sistemas de decisão de IA que precisam de ser implementados diretamente em chips embarcados de camiões de mineração. Globalmente, a condução autónoma em minas a céu aberto está a progredir gradualmente de testes-piloto tecnológicos para operação comercial em larga escala. Com a procura explosiva por perceção de alta precisão e para todas as condições meteorológicas na indústria mineira da China, este modelo leve de deteção de objetos de múltiplas escalas pode ser usado não só para a perceção autónoma de camiões de mineração, mas também pode ser estendido a múltiplos cenários, como drones autónomos de inspeção mineira e monitorização de segurança no local, reduzindo significativamente a taxa de acidentes nas minas e melhorando a eficiência operacional de toda a cadeia de extração e transporte.

China

Geologia, Recursos Minerais e Metalurgia

Este boletim é uma compilação e reprodução de informações de parceiros estratégicos e da internet global, destinado apenas para troca de informações entre leitores. Em caso de infração ou outros problemas, por favor, informe-nos imediatamente, e este site fará as devidas modificações ou exclusões. A reprodução deste artigo é estritamente proibida sem autorização formal. E-mail: news@wedoany.com

Anterior：No período do "15º Plano Quinquenal", o "Sol Artificial" da China passará do laboratório para a industrialização

Próximo：Equipa da Universidade de Chongqing e outras propõem nova estratégia de navegação híbrida, superando o gargalo da navegação autónoma de carregadoras em ambientes sem GPS