新发现的“P3”恶意软件可在微调后感染语言模型
原文英文,约800词,阅读约需3分钟。发表于: 。This is a Plain English Papers summary of a research paper called Newly Discovered 'P3' Malware Can Infect Language Models Despite Fine-Tuning. If you like these kinds of analysis, you should join...
研究发现一种名为“持续预训练投毒”(P3)的新攻击方式,可以让大型语言模型在微调后仍然产生偏见和不良输出。通过在预训练数据中注入偏见,使其在初始阶段被锁定,后续训练难以消除。P3攻击在多种模型上有效,显示了模型的脆弱性。未来需开发更强的训练技术和数据管理来应对。