BriefGPT - AI 论文速递 ·

CleanGen：针对大型语言模型中生成任务的反后门攻击

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

本文探讨了生成式大规模语言模型（LLMs）中的后门攻击问题，提出了覆盖式监督微调（OSFT）和模拟消除（SANDE）方法，以增强模型的安全性。研究表明，后门攻击对自然语言生成系统构成威胁，并提出了多种防御策略，强调了定制化语言模型的脆弱性。呼吁在发布开源模型前进行更全面的安全测试。

🎯

❓

覆盖式监督微调（OSFT）是一种增强生成式大规模语言模型安全性的方法，通过有效去除已知和未知触发器引起的不良数据映射。

后门攻击可能嵌入恶意指令，导致定制化语言模型输出攻击者所需的结果，从而对系统安全构成严重威胁。

可以通过覆盖式监督微调（OSFT）、模拟消除（SANDE）和Chain-of-Scrutiny（CoS）等方法来有效防御后门攻击。

定制化语言模型容易被嵌入后门指令，且在精调阶段使用少量数据样本就能成功毒化，显示出其安全性不足。

BGMAttack是一种基于生成模型的攻击方法，能够有效欺骗文本分类器，并在攻击时表现出更高的隐蔽性。

SecuCoGen数据集旨在评估和增强代码生成大型语言模型的安全性能，帮助识别和修复安全漏洞。

🏷️