Quando os usuários geram imagens no estilo Ghibli usando o ChatGPT, as imagens reais são geradas pelo DALL-E. Embora essa ferramenta baseada em difusão possa produzir imagens impressionantes, ela apresenta limitações, como erros ocasionais, como mãos com três dedos ou distorções faciais, e enfrenta desafios ao ser executada em dispositivos com recursos computacionais limitados. Uma equipe de pesquisa liderada pelo Professor Yoo Jae-jun e pelo Professor Yoon Sung-hwan, da Escola de Pós-Graduação em Inteligência Artificial da Universidade de Ciência e Tecnologia de Ulsan (UNIST), propõe novos princípios de design de IA generativa para solucionar esses problemas.

1/1 Diagrama conceitual da análise teórica. O Teorema 1 (Corolário 1 do modelo de difusão) transforma perturbações no espaço de parâmetros em um conjunto de distribuições de perturbação. O Teorema 2 (Corolário 2 do modelo de difusão) mostra que mínimos planos aumentam a robustez do modelo a lacunas de distribuição.
Modelos de difusão são amplamente utilizados em aplicações populares de IA, como DALL-E e difusão estável, capazes de realizar tarefas como transferência de estilo e criação de desenhos animados. No entanto, a implementação enfrenta desafios como acúmulo de erros, degradação de desempenho e vulnerabilidade a ataques adversários. A equipe de pesquisa descobriu que esses problemas decorrem da capacidade limitada de generalização do modelo, ou seja, da capacidade insuficiente de operar de forma confiável com novos dados ou em ambientes desconhecidos. Para solucionar esse problema, a equipe de pesquisa propôs direcionar o processo de treinamento para "mínimos planos", regiões localizadas na superfície da função de perda do modelo. Essas superfícies amplas e com inclinação suave ajudam o modelo a manter um desempenho estável e confiável mesmo sob pequenas perturbações ou ruídos. Entre os diversos algoritmos para encontrar mínimos planos, o algoritmo de Minimização Sensível à Nitidez (SAM) apresentou os melhores resultados. Os modelos treinados com SAM exibiram menor acúmulo de erros em tarefas de geração rápida, saída de maior qualidade após a compressão e um aumento de sete vezes na resistência a ataques adversários, aprimorando significativamente a robustez do modelo.
A equipe de pesquisa destaca que o foco em mínimos planos oferece uma solução unificada para desafios como acúmulo de erros, erros de quantização e vulnerabilidades a ataques adversários. Sua estrutura não apenas melhora a qualidade da imagem, mas também permite o desenvolvimento de sistemas de IA generativa confiáveis e totalmente funcionais, efetivamente aplicáveis a diversos setores e cenários do mundo real, e treinando modelos em larga escala de forma eficiente, mesmo com dados limitados.













