本研究提出了一种新的零样本人机协调方法,解决了未知环境中的泛化能力问题。通过改进效用函数和合作玩家采样策略,显著提升了自我代理与人类的协调性能,实验结果优于其他基线模型。
本研究探讨了人工智能在目标与价值涌现中的难题,提出通过效用函数分析AI偏好的内部一致性,发现大型语言模型的偏好结构高度一致,表明其存在有意义的价值体系。
基于分解的多目标强化学习(MORL/D)引入了全面的分类体系,为现有和潜在MORL作品提供了结构化的基础。该框架展示了灵活性和多功能性,并为MORL领域的新研究方向奠定了基础,推动了该领域的发展。
本文提出了一种利用泛化的效用函数来解决风险敏感的强化学习问题的方法,并设计了可实现的近似算法来求解该问题。
完成下面两步后,将自动完成登录并继续当前操作。