小红花·文摘 - 小红花技术领袖俱乐部

本研究提出RealSafe-R1模型，旨在解决大型推理模型的安全隐患，特别是对恶意查询的应对。通过15000条安全推理轨迹的数据集，确保了安全性与推理能力的平衡，表现出色，为安全应用提供了新思路。

RealSafe-R1: Secure Alignment for Deep Search R1 Without Compromising Inference Capability

BriefGPT - AI 论文速递 ·

本研究提出了一种新的防御模型盗用的方法——账户感知分布差异（ADD），旨在识别恶意查询。实验结果表明，D-ADD模块在图像分类模型中有效防御多种攻击，同时对正常用户的影响较小。

Defense Against Model Stealing Based on Account-Aware Distribution Discrepancy

BriefGPT - AI 论文速递 ·