评估大型语言模型安全性的因果分析

原文约600字，阅读约需2分钟。发表于：。

这项研究提出了一个轻量级因果分析框架，应用于大型语言模型，分析其存在的安全问题，尤其是对抗性扰动和特洛伊攻击，并发现了对模型造成有害提示过拟合的现象，以及一种有效的特洛伊攻击方法。

本文研究了对大型语言模型（LLMs）的编码任务的对抗性扰动的影响，并提出了基于提示的防御措施。实验证明，对抗性示例具有可转移性，削弱了LLMs的性能。提出的防御措施显示出改善模型韧性的潜力。