本研究提出RealSafe-R1模型,旨在解决大型推理模型的安全隐患,特别是对恶意查询的应对。通过15000条安全推理轨迹的数据集,确保了安全性与推理能力的平衡,表现出色,为安全应用提供了新思路。
本研究提出了一种新的防御模型盗用的方法——账户感知分布差异(ADD),旨在识别恶意查询。实验结果表明,D-ADD模块在图像分类模型中有效防御多种攻击,同时对正常用户的影响较小。
完成下面两步后,将自动完成登录并继续当前操作。