何为合理点火?用于消除可消除的社交和道德情境的上下文和理由的迭代自提纯

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了一种可召集的道德推理任务,通过自我蒸馏方法获得了一个学生模型,用于生成具有改进的有效性、多样性和可推翻性的有争议背景。利用这个模型,提炼了一个高质量的数据集《δ-Rules-of-Thumb》,其中包含 115,000 个高度被人工标注者评价为 85.9% 至 99.8% 的可推翻道德行为的 1.2M 个背景和理由。最终获得了一种明显优于所有中间学生模型的最终学生模型。

🎯

关键要点

  • 本文介绍了一种可召集的道德推理任务,强调准确代表人类道德判断的重要性。
  • 该任务提供了使行为在道德上更可接受的背景,并结合常识理由进行推理。
  • 通过自我蒸馏方法,获得了一个改进的学生模型,提升了有效性、多样性和可推翻性。
  • 提炼出高质量的数据集《δ-Rules-of-Thumb》,包含115,000个被人工标注者高度评价的可推翻道德行为。
  • 《δ-RoT》数据集包含1.2M个背景和理由,最终模型明显优于所有中间学生模型。
➡️

继续阅读