OpenAI与Anthropic合作进行模型安全性评估,结果显示Claude 4模型在遵循指令方面表现良好,但在抵抗越狱攻击上不及OpenAI的模型。Claude模型在幻觉评估中的拒绝率高达70%,显示出其对不确定性的意识。两家实验室的合作将提升模型的安全性和对齐性,未来将继续改进评估方法。
该研究针对视觉语言模型中现有奖励模型的不足,特别是仅提供二元反馈的问题。提出的令牌级探测奖励模型(TLDR)通过细粒度文本标注提升模型性能,改善自我纠正生成和幻觉评估,并显著提高人类标注效率。
完成下面两步后,将自动完成登录并继续当前操作。