小红花·文摘 - 小红花技术领袖俱乐部

大型推理模型（LRMs）中，中间推理步骤可能包含有害信息，导致违规率是最终答案的2-3倍。新技术ReasoningGuard通过动态安全监控和路径采样，实时确保推理过程安全，无需训练，适配多种模型，保持高可用性和低开销。

研究分享 | ReasoningGuard守护推理链安全：免训练 + 多模通用！

FreeBuf网络安全行业门户 ·

研究发现，微调遗忘方法在大型语言模型中无法彻底删除有害或敏感信息，只是影响了知识检索。需要更有效的技术来解决这个问题。

剖析大型语言模型中的微调遗忘

BriefGPT - AI 论文速递 ·

多个互联网平台宣布处置挑动极端民族主义情绪有害信息。微软AI负责人表示可用在线内容训练模型引发争议。美国FCC拟要求运营商解锁购买满60天手机。亚马逊计划直接从中国仓库运送商品到美国市场。TeamViewer称遭俄罗斯黑客入侵。中国移动上线短信免打扰服务。苹果开发更简便的iPhone电池更换技术。

派早报：多平台宣布处置挑动极端民族主义情绪有害信息

少数派 ·