评估大型语言模型安全性的因果分析

原文约600字,阅读约需2分钟。发表于:

这项研究提出了一个轻量级因果分析框架,应用于大型语言模型,分析其存在的安全问题,尤其是对抗性扰动和特洛伊攻击,并发现了对模型造成有害提示过拟合的现象,以及一种有效的特洛伊攻击方法。

本文研究了对大型语言模型(LLMs)的编码任务的对抗性扰动的影响,并提出了基于提示的防御措施。实验证明,对抗性示例具有可转移性,削弱了LLMs的性能。提出的防御措施显示出改善模型韧性的潜力。

相关推荐 去reddit讨论