NVIDIA dos EUA lança blueprint de agente de IA de visão industrial
2026-07-02 10:03
Favoritos

De acordo com pt.wedoany.com-A NVIDIA lançou um novo conjunto de componentes de software e fluxos de trabalho reutilizáveis para agentes de IA de visão, com o objetivo de apoiar o desenvolvimento, simulação e implantação de modelos em ambientes de borda e nuvem.

Este conjunto de ferramentas, denominado Metropolis Agent Skills and Blueprints, abrange fluxos de trabalho para geração de dados sintéticos, aumento de dados de vídeo, ajuste fino de modelos, além de pesquisa e resumo de vídeos. Os desenvolvedores podem combinar esses fluxos de trabalho com a plataforma Omniverse, baseada em OpenUSD para simulação e gêmeos digitais, e com a plataforma Metropolis, para construir e executar aplicações de IA de vídeo.

Agentes de IA de visão estão sendo implantados em fábricas, armazéns, redes de tráfego e infraestrutura urbana, onde operadores desejam transformar imagens de câmeras em alertas automáticos, relatórios e monitoramento de processos. A NVIDIA posiciona este novo software como uma resposta a um problema comum de computação de borda: grandes volumes de dados são gerados perto de câmeras e sensores, mas a maior parte nunca é convertida em ações concretas.

A NVIDIA destacou três principais obstáculos que as organizações enfrentam ao construir tais sistemas: falta de dados de treinamento representativos, especialmente para defeitos raros ou eventos anômalos; o trabalho especializado necessário para ajustar modelos após lacunas de desempenho; e o esforço de engenharia para integrar pipelines de vídeo, modelos, metadados, pesquisa, alertas e sistemas em aplicações funcionais.

No setor de manufatura, dados sintéticos ajudam a resolver a escassez de imagens reais de defeitos. A NVIDIA mencionou o trabalho da Roboflow, que está integrando as habilidades de geração de imagens de defeitos da NVIDIA e o modelo Cosmos World Foundation Model em sua plataforma, atendendo clientes como a Corning. De acordo com a NVIDIA, um teste de referência com a equipe de engenharia de fabricação de fibra óptica da Corning descobriu que um modelo treinado com oito imagens reais de defeitos combinadas com dados sintéticos gerados pela habilidade de geração de imagens de defeitos alcançou 95% de precisão média e recall perfeito na categoria de defeitos mais difíceis. O modelo superou a linha de base treinada apenas com dados reais e reduziu um projeto que originalmente levaria vários trimestres para apenas alguns dias. Este exemplo destaca o principal valor comercial dos dados sintéticos na inspeção industrial. Linhas de produção capazes de prevenir a maioria dos defeitos podem ter dificuldade em coletar exemplos de falhas suficientes para treinar a próxima geração de sistemas de inspeção, resultando em modelos fracos na detecção de anomalias incomuns, porém importantes.

No campo da operação urbana, a NVIDIA apontou a existência de um mercado para fluxos de trabalho de vídeo interconectados. A Linker Vision está usando o blueprint de pesquisa e resumo de vídeo do Metropolis da NVIDIA para implantar agentes de inferência de vídeo em infraestrutura urbana, enquanto utiliza o gêmeo digital Omniverse baseado em OpenUSD para simular tráfego, clima, emergências e mudanças na infraestrutura. O sistema empacota tarefas como pesquisa, resumo, alertas, relatórios e gerenciamento de fluxo em fluxos de trabalho executáveis por agentes. A Linker Vision também usa o Cosmos da NVIDIA para aumento de dados de vídeo e o TAO da NVIDIA para ajuste fino de modelos. Em Kaohsiung, a NVIDIA afirmou que a Linker Vision, usando o blueprint de pesquisa e resumo de vídeo, reduziu o esforço de desenvolvimento em 85% e diminuiu o tempo de resposta a eventos em até 80%. A empresa acrescentou que a extensão mais recente do grupo, AI-GRID, inclui o blueprint NemoClaw para IA de agente segura em ambientes urbanos e de tráfego.

Na operação de fábricas, outro exemplo vem do monitoramento de fluxos de trabalho industriais. De acordo com a NVIDIA, o agente de verificação de procedimentos operacionais padrão em tempo real da DeepHow, implantado na Foxconn, usa o blueprint de pesquisa e resumo de vídeo do Metropolis para pesquisar, resumir e analisar vídeos em ambientes operacionais. O objetivo é avaliar se o trabalho está sendo executado corretamente, comparando ações com procedimentos padrão e identificando problemas antes que os defeitos se propaguem para etapas posteriores. A NVIDIA afirmou que o Cosmos ajuda o sistema a interpretar sequências de ações humanas no contexto, incluindo julgar se as etapas de montagem são executadas na ordem correta. Segundo a NVIDIA, na linha de produção do servidor NVIDIA GB300, o sistema DeepHow melhorou a taxa de aprovação na primeira tentativa em 3%, alcançou 99% de precisão em nível de tarefa na compreensão de etapas críticas de procedimentos e reduziu o trabalho redundante ao identificar problemas no início do processo.

O contexto de mercado mais amplo deste lançamento é a migração do processamento de IA para a borda, onde os dados são gerados em vez de enviados de volta para infraestrutura centralizada. A NVIDIA citou previsões da Gartner de que, até 2028, mais de dois terços dos dados gerenciados por empresas serão criados e processados fora de data centers ou nuvens, e até 2029, mais de dois terços das empresas globais implantarão IA de borda, contra apenas 10% em 2025. No entanto, mais dados de borda não geram automaticamente insights mais úteis. Modelos executados perto de câmeras e máquinas devem operar sob restrições de latência, consumo de energia, custo e conectividade, ao mesmo tempo que se adaptam às condições de cada local. O OpenUSD está no centro da abordagem da NVIDIA, pois fornece uma maneira comum de descrever e reutilizar cenas 3D. A biblioteca Omniverse ajuda as equipes a construir fluxos de trabalho de simulação, dados sintéticos e gêmeos digitais, permitindo testes em diversas condições, como iluminação, clima, padrões de tráfego, ângulos de câmera, oclusões e eventos raros.

O novo pacote inclui habilidades de geração de imagens de defeitos, aumento de dados de vídeo, habilidades TAO para ajuste fino de modelos, e habilidades de pesquisa e resumo de vídeo para alertas, relatórios e gerenciamento de fluxo. O objetivo é que os desenvolvedores não precisem reconstruir cada parte do fluxo de trabalho do zero a cada implantação. Esses fluxos de trabalho reutilizáveis visam ajudar os desenvolvedores a gerar dados, melhorar modelos e implantar agentes de IA de visão em operações industriais, de tráfego e urbanas.

Este boletim é uma compilação e reprodução de informações de parceiros estratégicos e da internet global, destinado apenas para troca de informações entre leitores. Em caso de infração ou outros problemas, por favor, informe-nos imediatamente, e este site fará as devidas modificações ou exclusões. A reprodução deste artigo é estritamente proibida sem autorização formal. E-mail: news@wedoany.com