小红花·文摘

本研究探讨了恶意预训练语言模型对自然语言处理系统的安全威胁，分析了通过TROJAN-LM攻击导致的误操作及其对策。研究强调在大型语言模型中有效去除有害知识的重要性，并提出了SPUNGE框架以增强去学习效果。结果显示，现有算法在隐私保护和内容删除方面存在局限，需进一步改进。