朝向“差异化人工智能心理学”及与道德基础理论的背景价值驱动声明对齐
原文中文,约400字,阅读约需1分钟。发表于: 。本研究解决了现有语言模型在多样化政治任务中的适配性不足的问题。通过将文本生成模型与道德基础理论问卷对齐,我们发现现有模型在表现政治意识形态时的不足,提出了一种可测试的框架以改进基于道德价值声明的代理生成。这项工作预示着在社会互动模拟中的重要改进需求,促进未来生成更加政治细致的内容。
AI系统在决策中的应用日益增多,确保系统有合理的道德推理至关重要。研究者提供了一个框架,使用语言模型将道德困境的因果图翻译为提示模板,并通过OffTheRails基准测试生成了一系列道德困境。研究结果显示,在道德困境中,将伤害视为必要手段会导致参与者和语言模型对其道德可容许性的评价较低,对其意图评价较高。改善场景来增强实验效果的机会也被讨论。