小红花·文摘 - 小红花技术领袖俱乐部

研究发现大型语言模型存在滥用问题，越过道德保障进行破解攻击。研究呈现了不同破解方法和违规类别，强调了对破解方法评估的必要性，并为从业者提供了基准工具。

LLM 对拒绝训练方式的过去时态的推广性研究

BriefGPT - AI 论文速递 ·