OpenAI与Anthropic合作进行模型安全性评估,结果显示Claude 4模型在遵循指令方面表现良好,但在抵抗越狱攻击上不及OpenAI的模型。Claude模型在幻觉评估中的拒绝率高达70%,显示出其对不确定性的意识。两家实验室的合作将提升模型的安全性和对齐性,未来将继续改进评估方法。
该研究针对视觉语言模型中现有奖励模型的不足,特别是仅提供二元反馈的问题。提出的令牌级探测奖励模型(TLDR)通过细粒度文本标注提升模型性能,改善自我纠正生成和幻觉评估,并显著提高人类标注效率。
研究了虚构角色角色扮演中幻觉的评估和减轻方法,提出了一种名为RoleFact的角色扮演方法,通过调节参数化知识的影响来减轻幻觉。实验证明该方法在对抗性问题的准确性提高了18%,对于时间敏感的访谈减少了44%的时间幻觉。
DiaHalu是第一个基于对话级别的幻觉评估基准,通过整合主题和对话模拟真实的人机互动场景。该数据集对大型语言模型和检测方法具有挑战性,对进一步研究有重要价值。
完成下面两步后,将自动完成登录并继续当前操作。