BriefGPT - AI 论文速递 ·

ICLGuard：应用适用性授权的上下文学习行为控制

💡 原文中文，约1300字，阅读约需3分钟。

📝

内容提要

本文探讨了大型语言模型（LLMs）的安全性及其上下文学习（ICL）方法。研究表明，模型可以通过少量示例被操控，从而影响越狱攻击的成功率。提出了隐式上下文学习（I2CL）和指南学习（GL）框架，以增强模型的鲁棒性和任务迁移能力。同时，分析了ICL在安全训练中的风险，强调了训练策略和演示设计的重要性。

🎯

❓

隐式上下文学习（I2CL）是一种创新范式，通过将演示样例吸收到激活空间中，解决传统上下文学习面临的挑战，表现出接近零成本的少样本性能。

越狱攻击通过恶意上下文引导模型生成有害输出，增加或减少攻击成功率，从而影响大型语言模型的安全性。

指南学习（GL）框架通过学习生成和遵循指南，提升上下文学习的性能，自动从少量标注中综合一组指南。

上下文学习（ICL）可以成功破坏安全训练，带来重大的安全风险，尤其是在禁止模型回答某些任务的情况下。

通过拒绝回答有害提示的演示和使用越狱攻击与守护方法，可以增强大型语言模型的鲁棒性。

I2CL通过实现一种名为“task-ids”的新颖表示，增强了任务相似性检测能力，并实现了有效的迁移学习。

🏷️