小红花·文摘

本研究提出了一种动态安全框架，旨在优化语言模型推理时的安全性，而无需修改模型权重。通过引入元批评机制，迭代更新安全提示，以增强对恶意请求和多样化安全任务的应对能力。