评估大型语言模型安全性的因果分析 原文约600字,阅读约需2分钟。发表于:2023-12-13T00:00:00Z。 这项研究提出了一个轻量级因果分析框架,应用于大型语言模型,分析其存在的安全问题,尤其是对抗性扰动和特洛伊攻击,并发现了对模型造成有害提示过拟合的现象,以及一种有效的特洛伊攻击方法。 本文研究了对大型语言模型(LLMs)的编码任务的对抗性扰动的影响,并提出了基于提示的防御措施。实验证明,对抗性示例具有可转移性,削弱了LLMs的性能。提出的防御措施显示出改善模型韧性的潜力。 大型语言模型 安全性 对抗性扰动 模型韧性 编码任务 语言模型 防御措施