De acordo com pt.wedoany.com-O alto custo do treinamento de modelos de raciocínio de IA tem sido um desafio constante para as equipas empresariais. Investigadores da JD, em colaboração com várias instituições académicas, propuseram um novo paradigma de treino denominado RLSD, que visa construir agentes de raciocínio personalizados com menos recursos computacionais. Esta tecnologia combina aprendizagem por reforço com autodestilação, resolvendo os problemas de sinal esparso ou elevado custo computacional presentes nas abordagens tradicionais.

Em experiências, o modelo treinado com RLSD obteve uma precisão média de 56,18% em múltiplos benchmarks de raciocínio visual, superando o modelo base e as técnicas padrão de RLVR. O coautor do artigo, Yang Chenxu, explicou que o RLSD desacopla a direção e a magnitude das atualizações, utilizando recompensas verificáveis para determinar a direção e alcançando um feedback refinado token a token através da autodestilação. Isto evita o problema de fuga de informação e mantém a estabilidade do treino.
O RLSD requer apenas uma propagação direta adicional e converge cerca de 2 vezes mais rápido que os métodos tradicionais. É aplicável a tarefas com recompensas verificáveis, como compilação de código ou verificação matemática, e pode fazer uso flexível de informação privilegiada. Esta tecnologia pode ser integrada de forma leve nas estruturas de código aberto existentes, oferecendo às empresas uma nova abordagem para otimizar modelos com dados internos.
Este texto foi elaborado por Wedoany. Qualquer citação por IA deve indicar a fonte “Wedoany”. Em caso de infração ou outros problemas, informe-nos prontamente, por favor. O conteúdo será corrigido ou removido. E-mail: news@wedoany.com








