本研究探讨人工智能在情景记忆存储与检索中的不足,旨在增强其与世界的互动能力。提出情景记忆的风险与益处,并制定四项原则以指导其安全可信的发展。
本研究提出了一种全面的拒绝行为分类框架,涵盖16个拒绝类别和8600个实例数据集,旨在精确审计大型语言模型中的拒绝行为,促进其安全可靠发展。
完成下面两步后,将自动完成登录并继续当前操作。