小红花·文摘 - 小红花技术领袖俱乐部

本研究探讨人工智能在情景记忆存储与检索中的不足，旨在增强其与世界的互动能力。提出情景记忆的风险与益处，并制定四项原则以指导其安全可信的发展。

人工智能代理中的情景记忆带来的风险需进行研究与缓解

BriefGPT - AI 论文速递 ·

本研究提出了一种全面的拒绝行为分类框架，涵盖16个拒绝类别和8600个实例数据集，旨在精确审计大型语言模型中的拒绝行为，促进其安全可靠发展。

不能？还是不该？对IFT/RLHF数据集中拒绝组成和黑箱LLMs拒绝行为的自动分析

BriefGPT - AI 论文速递 ·