一份包含恶意内容的用于 LLMs 的中文 Prompt 攻击数据集
原文中文,约2300字,阅读约需6分钟。发表于: 。我们介绍了一份针对大型语言模型的汉语 Prompt 攻击数据集(CPAD),我们的测试结果显示,我们的 Prompt 对语言模型具有显著的危害,攻击成功率约为 70%。我们将发布 CPAD 以鼓励对 Prompt 攻击和防御的进一步研究。
该文介绍了一份针对大型语言模型的汉语 Prompt 攻击数据集(CPAD),测试结果显示,该 Prompt 对语言模型具有显著的危害,攻击成功率约为 70%。作者将发布 CPAD 以鼓励对 Prompt 攻击和防御的进一步研究。同时,该文列举了多篇相关研究,探讨了如何防止生成不良信息的重要问题。