本研究提出了一种新的零样本人机协调方法,解决了未知环境中的泛化能力问题。通过改进效用函数和合作玩家采样策略,显著提升了自我代理与人类的协调性能,实验结果优于其他基线模型。
本研究探讨了人工智能中目标和价值的涌现问题,利用效用函数框架分析AI偏好的内部一致性。研究发现,大型语言模型的偏好结构高度一致,表明形成了有意义的价值体系,这对AI的设计和控制具有重要影响。
本文探讨了多目标强化学习(MORL)的新算法及其在连续控制问题中的应用,提出了基于效用的范式和新方法,如PD-MORL和DG-MORL,旨在提升算法性能和计算效率。研究表明,良好的奖励信号和适应性强的算法设计能显著改善学习效果,推动MORL领域的发展。
本文介绍了一种名为SAFE-BOCP的基于安全约束的贝叶斯优化算法,能够在确保安全的前提下快速优化机器人算法参数。同时,研究提出了StageOpt算法,解决了优化未知效用函数的安全性问题,并通过实验验证了其在扩展安全区域和最大化效用方面的高效性。
本文提出了一种利用泛化的效用函数来解决风险敏感的强化学习问题的方法,并设计了可实现的近似算法来求解该问题。
完成下面两步后,将自动完成登录并继续当前操作。