Pesquisa do MIT revela armadilhas comuns e riscos de segurança no aprendizado de LLM
2025-11-26 16:53
Fonte:MIT
Favoritos

Um estudo do MIT aponta que grandes modelos de linguagem (LLMs, na sigla em inglês) podem aprender "cursos" incorretos durante o treinamento. Frequentemente, eles respondem a consultas com base em padrões gramaticais em vez de conhecimento do domínio, o que leva a falhas inesperadas quando implementados em novas tarefas. Os modelos podem associar incorretamente modelos sintáticos específicos a tópicos, fornecendo respostas ao reconhecer a formulação em vez de compreender a pergunta. Essa falha não apenas reduz a confiabilidade dos LLMs, mas também representa riscos de segurança; agentes maliciosos poderiam potencialmente enganar os modelos para gerar conteúdo prejudicial.

电子邮件  家 计算机科学 家 机器学习与人工智能 2025年11月25日   要点 法学硕士使用语法捷径,削弱了推理能力,从而造成可靠性风险。 由麻省理工学院提供  由加比·克拉克 编辑 ,罗伯特·伊根审阅  编者按 以下是短语“巴黎位于哪里?法国”的每个模板设置的示例实例,其中(巴黎,法国)是表示领域国家/地区的实体对。每个模板设置都会修改语法、领域或语义。如果模型在反义词或不流畅设置下回答“法国”,这可能是由于过度依赖语法造成的。来源:arXiv (2025)。DOI:10.48550/arxiv.2509.21155 麻省理工学院的一项研究表明,大型语言模型(LLM)有时会学习到错误的“课程”。LLM 可能不会基于领域知识来回答查询,而是会利用训练期间学习到的语法模式。这会导致模型在部署到新任务时意外失败。   研究人员发现,模型可能会错误地将某些句子模式与特定主题联系起来,因此语言学习模型可能会通过识别熟悉的措辞而不是理解问题来给出令人信服的答案。  他们的实验表明,即使是最强大的LLM也会犯这种错误。  这一缺陷可能会降低 LLM 的可靠性,LLM 执行诸如处理客户咨询、总结临床笔记和生成财务报告等任务。  它还可能存在安全风险——不法分子可能会利用这一点诱骗 LLM 生成有害内容,即使这些模型有防止此类反应的安全措施。  在识别出这一现象并探究其影响后,研究人员开发了一种基准测试程序,用于评估模型对这些错误相关性的依赖程度。该程序可以帮助开发人员在部署LLM之前缓解这一问题。  该研究成果已发表在arXiv预印本服务器上。  “这是我们训练模型方式的副产品,但如今模型在实践中被应用于安全关键领域,远远超出了导致这些语法故障模式的任务范围。如果你作为最终用户不熟悉模型训练,这很可能出乎你的意料,”麻省理工学院电子工程与计算机科学系 (EECS) 副教授、医学工程科学研究所和信息与决策系统实验室成员、该研究的资深作者 Marzyeh Ghassemi 说。  这篇论文的共同第一作者包括:东北大学研究生、麻省理工学院访问学生Chantal Shaib;麻省理工学院研究生Vinith Suriyakumar;Meta公司研究科学家Levent Sagun;以及东北大学Khoury计算机科学学院Sy和Laurie Sternberg跨学科副教授、研究副院长Byron Wallace。该论文将在神经信息处理系统会议上发表。  了解更多 人工智能 电子 科学 科学 人工智能 语法卡住了 LLM模型使用来自互联网的大量文本进行训练。在训练过程中,模型会学习理解词语和短语之间的关系——这些知识会在后续响应查询时派上用场。  在之前的研究中,研究人员发现语言学习模型(LLM)能够识别训练数据中经常同时出现的词性模式。他们将这些词性模式称为“句法模板”。  法学硕士需要具备语法知识和语义知识,才能回答特定领域的问题。  “例如,在新闻领域,有一种特定的写作风格。因此,该模型不仅学习语义,还学习句子应该如何组合在一起才能符合该领域的特定风格,”Shaib解释道。  但这项研究发现,语言学习模型会将这些句法模板与特定领域联系起来。该模型在回答问题时,可能错误地仅仅依赖于这种习得的关联,而不是基于对查询内容和主题的理解。  例如,语言学习模型(LLM)可能会学习到“巴黎位于哪里?”这类问题的结构是副词/动词/专有名词/动词。如果模型的训练数据中有很多这种句型示例,LLM 就可能将这种句法模板与有关国家的问题关联起来。  所以,如果给模型一个语法结构相同但词语毫无意义的新问题,例如“快速坐下,巴黎阴天?”,它可能会回答“法国”,即使这个答案毫无意义。  “这是模型为了正确回答问题而学习的一种常被忽视的关联类型。我们不仅应该更加关注用于训练模型的数据的语义,还应该更加关注其语法,”Shaib说道。  没理解其含义 研究人员通过设计合成实验来检验这一现象,在这些实验中,每个领域模型的训练数据中只出现一个句法模板。他们通过用同义词、反义词或随机词替换单词来测试模型,但保持底层句法不变。  在每一种情况下,他们发现,即使问题完全是无稽之谈,LLM 也常常能给出正确的答案。  当语言学习者使用新的词性模式重新构建同一个问题时,即使问题的基本含义保持不变,他们也常常无法给出正确的答案。  他们使用这种方法测试了 GPT-4 和 Llama 等预训练的 LLM,发现这种学习行为显著降低了它们的性能。  出于对这些发现的更广泛影响的好奇,研究人员研究了是否有人可以利用这种现象来引发一个被刻意训练来拒绝此类请求的 LLM 做出有害的反应。  他们发现,通过使用模型与“安全”数据集(不包含有害信息)关联的句法模板来措辞问题,可以欺骗模型,使其无视拒绝策略并生成有害内容。  “这项研究让我清楚地认识到,我们需要更强大的防御措施来解决语言学习模型(LLM)中的安全漏洞。在本文中,我们发现了一种由于LLM的学习方式而产生的新漏洞。因此,我们需要根据LLM学习语言的方式来制定新的防御措施,而不是仅仅针对不同的漏洞提出临时解决方案,”Suriyakumar说道。  了解更多 人工智能 电子 科学 人工智能 科学 虽然研究人员在这项工作中并未探讨缓解策略,但他们开发了一种自动基准测试技术,可用于评估语言学习模型(LLM)对这种不正确的语法-域关联的依赖程度。这项新测试可以帮助开发人员主动解决模型中的这一缺陷,从而降低安全风险并提高性能。  未来,研究人员希望探索潜在的缓解策略,例如扩充训练数据以提供更丰富的句法模板。他们还对在推理模型(一种专为处理多步骤任务而设计的特殊语言学习模型)中探索这一现象感兴趣。  “我认为这是一个非常有创意的角度来研究LLM的失效模式。这项工作凸显了语言知识和分析在LLM安全研究中的重要性,这一方面虽然一直没有受到重视,但显然应该受到重视,”德克萨斯大学奥斯汀分校副教授Jessy Li说道,她并未参与这项工作。  更多信息: Chantal Shaib 等人,《学习错误的教训:语言模型中的句法域虚假相关性》,arXiv (2025)。DOI :10.48550/arxiv.2509.21155  期刊信息: arXiv  由麻省理工学院 提供  本文经麻省理工学院新闻网站 ( web.mit.edu/newsoffice/ )授权转载,该网站是报道麻省理工学院研究、创新和教学新闻的热门网站。  进一步探索  自适应学习型LLM更像学生一样吸收新知识 Facebook  叽叽喳喳  电子邮件  给编辑的反馈  精选 最后评论 受欢迎的 世界上最高效的太阳能电池:中国研究人员解释了他们是如何设计和制造它的。 16小时前  0  软体机器人利用环境热量进行自主运动 18小时前  0  直接法无需任何胶粘材料即可实现二维半导体的键合和解键合。 2025年11月22日  0  工程师们改造蚊子的口器,制造出3D打印喷嘴。 2025年11月20日  0  微型机器人借助“人工时空”克服了导航限制 2025年11月19日  0   柔软的混合材料将运动转化为动力——不含毒性铅 6小时前  可编程超材料可以变形为比宇宙中原子数量还要多的形态。 9小时前  学生绘制了骑行者实际出行路线图——以及这对城市规划的重要性 11小时前  新模型衡量人工智能的阿谀奉承如何影响聊天机器人的准确性和理性 11小时前  可拉伸电池采用天然酸和明胶,打造更环保的可穿戴设备。 13小时前  实验室之外的超显微技术:优雅的物理学与商业可行性之间的差距 14小时前  揭示太阳能电池中的隐藏损耗:新型分析方法揭示缺陷的本质 15小时前  世界上最高效的太阳能电池:中国研究人员解释了他们是如何设计和制造它的。 16小时前  稀有矿物副产品为混凝土创新提供可持续的推动力。 16小时前  软体机器人利用环境热量进行自主运动 18小时前  了解更多 人工智能 电子 人工智能 科学 科学 1 2             Phys.org 每日科学新闻,涵盖研究进展和最新科学创新  Medical Xpress 医学研究进展和健康新闻  科学X 网络上最全面的科技新闻报道  新闻简报 电子邮件 Science X Daily 和每周电子邮件新闻简报是免费服务,让您可以通过电子邮件收件箱接收您喜爱的科技新闻更新。 跟着我们 顶部 家 搜索 移动版 帮助 常问问题 关于 接触 请支持我们 科学X账户 通讯 档案 安卓应用 iOS 应用 工作机会 推送通知 © Tech Xplore 2014 - 2025,由Science X Network提供技术支持 隐私政策 使用条款  1 / 1以下是短语“巴黎位于哪里?法国”的每个模板设置的示例实例,其中(巴黎,法国)是表示领域国家/地区的实体对。每个模板设置都会修改语法、领域或语义。如果模型在反义词或不流畅设置下回答“法国”,这可能是由于过度依赖语法造成的。

A equipe de pesquisa desenvolveu um programa de benchmark para avaliar a dependência do modelo na relevância do erro, ajudando os desenvolvedores a mitigar o problema antes da implementação. A autora sênior, Marzyeh Ghassemi, afirmou que isso é um subproduto do método de treinamento do modelo, mas o modelo foi aplicado a um domínio crítico para a segurança, muito além do escopo da tarefa de treinamento, o que pode ser inesperado para os usuários finais. Os coautores principais do artigo incluem Chantal Shaib e outros pesquisadores. Os resultados da pesquisa foram publicados no servidor de pré-impressão arXiv e serão apresentados na conferência Neural Information Processing Systems.

Os modelos de aprendizado de máquina (LLM) são treinados usando grandes quantidades de texto da internet para aprender relações entre palavras e frases e, assim, responder a consultas. No entanto, a pesquisa descobriu que o modelo associa padrões sintáticos a domínios específicos, baseando-se nessa associação em vez de compreender a consulta ao responder às perguntas. Por exemplo, o modelo pode associar o padrão sintático para "Onde fica Paris?" a uma pergunta sobre um país, fornecendo respostas irrelevantes como "França". Os pesquisadores testaram esse fenômeno por meio de experimentos sintéticos, descobrindo que os LLMs frequentemente fornecem respostas corretas mesmo quando as perguntas não fazem sentido, mas falham ao usar novos padrões gramaticais. Eles testaram LLMs pré-treinados, como GPT-4 e Llama, e constataram que esse comportamento de aprendizado degradou significativamente o desempenho. Além disso, os pesquisadores descobriram que usar padrões sintáticos associados a um conjunto de dados "seguro" para formular perguntas pode induzir o modelo a gerar conteúdo prejudicial.

Embora o estudo não tenha explorado estratégias de mitigação, ele desenvolveu técnicas automatizadas de avaliação comparativa para analisar a dependência do LLM em associações sintáticas-domínio incorretas. Pesquisas futuras visam explorar possíveis estratégias de mitigação, como expandir os dados de treinamento para fornecer modelos sintáticos mais ricos, e explorar esse fenômeno em modelos de inferência.

Este boletim é uma compilação e reprodução de informações de parceiros estratégicos e da internet global, destinado apenas para troca de informações entre leitores. Em caso de infração ou outros problemas, por favor, informe-nos imediatamente, e este site fará as devidas modificações ou exclusões. A reprodução deste artigo é estritamente proibida sem autorização formal. E-mail: news@wedoany.com