小红花·文摘

本文探讨了人工智能系统与人类价值观对齐的问题，提出了一种基于多智能体决策和人类认知模型的协作逆强化学习方法。研究强调道德价值对齐的重要性，并提出新的框架和奖励函数设计，以提高AI系统的道德一致性和透明性，确保其符合社会伦理标准。