AI系统在决策中的应用日益增多,确保系统有合理的道德推理至关重要。研究者提供了一个框架,使用语言模型将道德困境的因果图翻译为提示模板,并通过OffTheRails基准测试生成了一系列道德困境。研究结果显示,在道德困境中,将伤害视为必要手段会导致参与者和语言模型对其道德可容许性的评价较低,对其意图评价较高。改善场景来增强实验效果的机会也被讨论。
研究发现,人们普遍认为人工智能系统在道德推理方面的质量高于人类。然而,人们对AI可能不加批判地接受可能有害的道德指导表示担忧,强调了对生成语言模型进行保护的必要性。
本文介绍了2023年人工智能(AI)在技术性能方面的全面进展,包括视觉常识推理、道德推理、因果推理、音频生成、智能体和强化学习等方面的能力和表现。同时,还介绍了一些新的技术和方法,如提示技巧、微调和闪电解码,以提高AI系统的性能和效率。此外,还提到了AI系统对环境的影响和一些积极的环境保护应用。总体而言,AI在多个领域的性能和能力已经取得了显著的进展。
本文介绍了一种可召集的道德推理任务,通过自我蒸馏方法获得了一个学生模型,用于生成具有改进的有效性、多样性和可推翻性的有争议背景。利用这个模型,提炼了一个高质量的数据集《δ-Rules-of-Thumb》,其中包含 115,000 个高度被人工标注者评价为 85.9% 至 99.8% 的可推翻道德行为的 1.2M 个背景和理由。最终获得了一种明显优于所有中间学生模型的最终学生模型。
该研究提出了一个灵活的框架,利用跨学科研究中建立的道德理论,引导大型语言模型进行道德推理。研究证明了该框架在从道德理论中衍生的数据集上的有效性,并展示了不同道德理论与现有道德数据集之间的一致性。研究还展示了开发可解释的道德判断系统中现有资源的潜力和缺陷。
完成下面两步后,将自动完成登录并继续当前操作。