本研究提出了一种动态安全框架,旨在优化语言模型推理时的安全性,而无需修改模型权重。通过引入元批评机制,迭代更新安全提示,以增强对恶意请求和多样化安全任务的应对能力。
完成下面两步后,将自动完成登录并继续当前操作。