PoisonBench:评估大型语言模型对数据中毒的脆弱性
📝
内容提要
本研究聚焦于当前大型语言模型偏好学习过程中的数据中毒攻击脆弱性。我们提出了PoisonBench,一个用于评估大型语言模型在偏好学习过程中对数据中毒的易感性的基准。研究发现,模型参数规模的增加并未提高抵御中毒攻击的能力,且数据中毒的影响可以推广到未包含在中毒数据中的触发因素,这突显了当前偏好学习技术的薄弱环节,并呼吁开发更强大的防御机制。
🏷️
标签
➡️