小红花·文摘 - 小红花技术领袖俱乐部

GPT-5.4思维系统卡

GPT-5.4思维系统卡

OpenAI ·

GPT-5系统卡更新：GPT-5.2

GPT-5系统卡更新：GPT-5.2

OpenAI ·

本研究探讨了人类反馈在大语言模型安全性中的有效性，审计了“有用且无害”数据集，揭示了因概念化失败和质量问题导致的安全行为差异，强调需要更细致的安全缓解措施。

Beyond Safety Combinations: Auditing the Helpful and Harmless Dataset

BriefGPT - AI 论文速递 ·