小红花·文摘

本文探讨了大型语言模型（LLMs）的安全性及其上下文学习（ICL）方法。研究表明，模型可以通过少量示例被操控，从而影响越狱攻击的成功率。提出了隐式上下文学习（I2CL）和指南学习（GL）框架，以增强模型的鲁棒性和任务迁移能力。同时，分析了ICL在安全训练中的风险，强调了训练策略和演示设计的重要性。