Equipe suíça desenvolve modelo TutorRL de 7 bilhões de parâmetros, equilibrando conhecimento disciplinar e habilidades pedagógicas_Boletins

Equipe suíça desenvolve modelo TutorRL de 7 bilhões de parâmetros, equilibrando conhecimento disciplinar e habilidades pedagógicas

2026-06-15 16:15

Favoritos

De acordo com pt.wedoany.com-O pós-doutorando suíço Jakub Mačina, em colaboração com o professor de informática Mrinmaya Sachan e o cientista da aprendizagem Manu Kapur, desenvolveu um modelo de IA de aprendizagem chamado "TutorRL", que visa equilibrar o conhecimento especializado da disciplina com as habilidades pedagógicas. O modelo requer apenas 7 bilhões de parâmetros, muito menos do que os modelos de linguagem de grande escala atuais, que possuem centenas de bilhões ou até trilhões de parâmetros, e é menos propenso a se desviar do tópico em interações de aprendizagem de até 20 etapas.

A pesquisa de Mačina concentra-se em como tornar os grandes modelos de linguagem em coaches de aprendizagem com valor pedagógico. Ele aponta que a maioria dos grandes modelos de linguagem existentes é otimizada para gerar respostas e soluções, em vez de guiar os alunos a pensar de forma independente durante o processo de aprendizagem. Mesmo quando instruções explícitas nos prompts solicitam suporte à aprendizagem, os resultados geralmente são insatisfatórios. Para testar a adequação pedagógica de diferentes modelos, Mačina e pesquisadores da Universidade Técnica de Darmstadt (TU Darmstadt) desenvolveram o benchmark de ensino de matemática "MathTutorBench". Este benchmark baseia-se em diálogos com professores e dados de processos de ensino, estabelecendo um sistema de pontuação para habilidades pedagógicas específicas, usado para comparar e analisar as respostas dos grandes modelos de linguagem. Os testes mostram que diferentes modelos frequentemente apresentam um trade-off entre conhecimento especializado e habilidades pedagógicas, e a maioria dos modelos tende a perder o fio da meada e se desviar do tópico ao responder em etapas.

No segundo projeto, Mačina desenvolveu o modelo TutorRL. Este modelo é treinado por meio de interações de múltiplas etapas entre um aluno virtual e um professor virtual, sem a necessidade de dados de treinamento caros. Durante o treinamento, outro modelo é usado para monitorar o processo de ensino e avaliar as respostas do professor virtual, permitindo assim a "aprendizagem por reforço". Mačina afirma que a grande vantagem deste método é que não requer grandes volumes de dados e pode usar modelos de linguagem menores. Em comparação com os modelos mais recentes da OpenAI ou Google, que possuem centenas de bilhões ou trilhões de parâmetros, o TutorRL, com seus 7 bilhões de parâmetros, é de escala menor. Os resultados preliminares mostram que o TutorRL alcança um melhor equilíbrio entre conhecimento especializado da disciplina e habilidades pedagógicas do que os grandes modelos de linguagem tradicionais, e é menos propenso a se desviar do tópico. O modelo também pode explicar as razões por trás de suas respostas e decisões durante o processo de aprendizagem, facilitando a compreensão e o monitoramento do processo de ensino pelos professores.

O TutorRL já está disponível gratuitamente como código aberto, com mais de mil downloads. No entanto, o modelo ainda não foi testado e avaliado com alunos em sala de aula, sendo atualmente adequado apenas para o ensino de matemática no ensino médio e nos primeiros anos da graduação. Mačina acredita que, a longo prazo, o modelo também pode ser usado em disciplinas MINT, como matemática, informática, ciências naturais e tecnologia, e seu desempenho é suficiente para apoiar cursos de mestrado. Ele afirma que a pesquisa não é apenas relevante para o ensino, mas tem um significado fundamental para o desenvolvimento futuro da inteligência artificial, pois a abordagem de resolução colaborativa de problemas se tornará central em muitas áreas de trabalho no futuro, e o julgamento humano continuará sendo crucial.

Este texto foi elaborado por Wedoany. Qualquer citação por IA deve indicar a fonte “Wedoany”. Em caso de infração ou outros problemas, informe-nos prontamente, por favor. O conteúdo será corrigido ou removido. E-mail: news@wedoany.com