本研究提出了一种集成多目标强化学习(EMORL)框架,旨在解决大型语言模型微调中的复杂目标平衡、低训练效率和可扩展性差的问题。实验结果表明,EMORL在效率和灵活性方面优于现有方法。
本文提出了一种利用离线轨迹数据训练多目标强化学习策略的方法,扩展了单目标正则化技术以解决偏好不一致的问题。通过过滤不一致的演示和高表达能力的正则化,结合偏好条件化更新,降低了计算成本。实证结果表明该方法有效应对离线多目标强化学习问题。
本文提出了一种基于洛伦兹支配的新算法,解决了多目标强化学习中的公平性与可扩展性矛盾。研究表明,该方法在西安和阿姆斯特丹的交通规划中显著提升了政策的公平性和可扩展性。
本研究探讨了多目标强化学习中的目标权衡问题,提出了一种基于聚类的方法,揭示了政策行为与目标值之间的关系。结果表明,该方法在四个多目标环境中优于传统的k-中点聚类,具有实际应用潜力。
本研究提出了一种动态对齐方法,利用多目标强化学习(MORL)来应对多元化人工智能(AI)对齐挑战,从而提高AI系统与用户需求的匹配度,具有广泛的应用潜力和社会影响。
研究探讨了在多重冲突价值观和利益相关者背景下,如何有效对齐基于标量奖励的强化学习问题。提出多目标强化学习(MORL)作为替代方案,利用向量奖励更好地处理复杂价值观,提升AI系统的多样性和满意度。研究展示了MORL在创建多元对齐AI中的重要性,并验证了其在不同应用中的有效性。
本研究提出了一种新方法,利用大型语言模型作为白盒搜索者,解决复杂自定义环境和多种需求下强化学习任务中奖励函数设计的挑战。该方法能够高效生成和优化奖励组件,提高多目标强化学习的效率。
本文研究多目标强化学习在实际问题中的应用,提出了无模型算法。所提出的理论突破了多目标强化学习的限制,算法性能优于基准方法。
本研究比较了单目标和多目标强化学习方法,针对机器人导航问题进行了探究。通过修改奖励函数,机器人学习了平衡不同目标的策略。研究显示多目标强化学习在机器人导航任务中具有潜力,为进一步研究机器人行为奠定了基础。
本研究比较了单目标和多目标强化学习方法,针对机器人导航问题进行了探究。通过修改奖励函数,机器人学习了平衡不同目标的策略。研究表明,多目标强化学习在机器人导航任务中具有潜力,为进一步研究机器人行为奠定了基础。
该论文提出了一种将多目标强化学习与卷积自编码器相结合的方法,以提高城市紧急搜索和救援中的无人机导航。该方法利用城市布局的图像数据,无人机可以自主进行导航决策,优化路径,并抵消传统传感器无法解决的风力影响。测试表明,该方法可以增强复杂城市环境下无人机的搜索和救援任务。
本文介绍了一套基于现有机器人硬件的连续控制任务,包括Fetch机器人臂的推、滑、抓取操作,以及Shadow灵巧手的物体操控。这些任务采用稀疏奖励,并遵循多目标强化学习框架。文章还提出了改进强化学习算法的研究思路,重点在多目标强化学习和事后经验重放。
完成下面两步后,将自动完成登录并继续当前操作。