何为合理点火?用于消除可消除的社交和道德情境的上下文和理由的迭代自提纯
原文中文,约400字,阅读约需1分钟。发表于: 。在现实场景中,准确地代表人类的道德判断的微妙和复杂程度对于理解各种有争议的情境至关重要。本文介绍了一种可召集的道德推理任务,提供使行为在道德上更或更少可接受的有力背景,并搭配常识理由来证明推理。通过迭代的自我蒸馏方法,我们获得了一个学生模型,用于生成具有改进的有效性、多样性和可推翻性的有争议背景。利用这个模型,我们提炼了一个高质量的数据集《δ-Rules-of-Thumb》,其中包含...
本文介绍了一种可召集的道德推理任务,通过自我蒸馏方法获得了一个学生模型,用于生成具有改进的有效性、多样性和可推翻性的有争议背景。利用这个模型,提炼了一个高质量的数据集《δ-Rules-of-Thumb》,其中包含 115,000 个高度被人工标注者评价为 85.9% 至 99.8% 的可推翻道德行为的 1.2M 个背景和理由。最终获得了一种明显优于所有中间学生模型的最终学生模型。