小红花·文摘

本研究提出了一种集成多目标强化学习（EMORL）框架，旨在解决大型语言模型微调中的复杂目标平衡、低训练效率和可扩展性差的问题。实验结果表明，EMORL在效率和灵活性方面优于现有方法。

EMORL: Ensemble Multi-Objective Reinforcement Learning for Efficient and Flexible Fine-Tuning of LLMs

BriefGPT - AI 论文速递 ·

本文提出了一种基于洛伦兹支配的多目标强化学习新算法，旨在解决公平性与可扩展性之间的矛盾。研究表明，该方法在西安和阿姆斯特丹的交通规划中显著提升了政策的公平性和可扩展性。

Scalable Multi-Objective Reinforcement Learning with Fairness Guarantees: Using Lorenz Dominance

BriefGPT - AI 论文速递 ·

本研究探讨了多目标强化学习中的目标权衡问题，提出了一种基于聚类的方法，揭示了政策行为与目标值之间的关系。结果表明，该方法在四个多目标环境中优于传统的k-中点聚类，具有实际应用潜力。

权衡导航：多目标强化学习的政策摘要

BriefGPT - AI 论文速递 ·

本研究提出了一种动态对齐方法，利用多目标强化学习（MORL）应对多元化人工智能（AI）对齐的挑战，提升AI系统与用户需求的契合度，具有广泛的实施潜力和社会技术影响。

Adaptive Alignment: Dynamic Preference Adjustments via Multi-Objective Reinforcement Learning for Pluralistic AI

BriefGPT - AI 论文速递 ·

研究探讨了在多重冲突价值观和利益相关者背景下，如何有效对齐基于标量奖励的强化学习问题。提出多目标强化学习（MORL）作为替代方案，利用向量奖励更好地处理复杂价值观，提升AI系统的多样性和满意度。研究展示了MORL在创建多元对齐AI中的重要性，并验证了其在不同应用中的有效性。

多目标强化学习：实现多元对齐的工具

BriefGPT - AI 论文速递 ·

本文探讨了通过强化学习实现人工智能系统的价值对齐，提出了多目标强化主动学习（MORAL）和GALAD代理体系，以提高代理的规范性和安全性。研究评估了大规模语言模型的道德性，并分析了强化学习反馈（RLxF）的局限性，强调了人工智能开发中的伦理和社会影响。

大型语言模型代理的道德对齐

BriefGPT - AI 论文速递 ·

本文提出了一系列多目标强化学习算法，旨在提高任务适应性和策略生成效率。研究包括基于广义Bellman方程的算法、动态权重的偏好推断方法和示范引导的多目标强化学习（DG-MORL），并在复杂机器人任务和能源管理中验证了其有效性。这些方法显著提升了推断效率和准确性。

从演示中推断多目标强化学习的偏好

BriefGPT - AI 论文速递 ·

本研究提出了一种离线适应框架，旨在解决多目标强化学习中人工设定目标偏好的问题。该框架通过少量示例隐式指示期望偏好，并可扩展以满足安全目标的约束。实证结果表明，该框架能够推断出符合真实偏好的策略。

An Offline Adaptation Framework for Constrained Multi-Objective Reinforcement Learning

BriefGPT - AI 论文速递 ·

本文提出了一种基于广义Bellman方程的多目标强化学习算法，旨在通过少量样本快速适应新任务并生成最优策略。该算法利用偏好指导更新网络参数，并采用新并行化方法提高采样效率，适用于连续机器人任务。同时，研究探讨了离线强化学习中的分布偏移问题，提出新方法以改善策略学习效果，并在多个基准任务上取得了先进结果。

MODULI：通过扩散模型解锁离线多目标强化学习中的偏好泛化

BriefGPT - AI 论文速递 ·

本文介绍了多目标强化学习和逆强化学习的最新研究进展，包括基于广义Bellman方程的算法、双层优化框架和逆偏好学习（IPL）算法。这些方法在不同任务中表现优越，尤其在离线设置下，通过动态选择子目标和专家数据引导学习，提高了学习效率和策略表现。

多样专家策略生成的帕累托逆强化学习

BriefGPT - AI 论文速递 ·

本文探讨了马尔可夫决策过程中的多种算法，包括风险受限规划、非累积决策过程映射和多目标强化学习。研究提出的新算法旨在提高学习效率，确保目标达成，并解决现实世界中的约束问题，实验证明其在多种任务中的有效性。

非最大化策略满足期望中的多标准期望

BriefGPT - AI 论文速递 ·

本研究提出了一种新型多目标强化学习算法PD-MORL，该算法通过偏好指导更新网络参数，并采用并行化方法提高采样效率，适用于连续机器人任务。实验验证了其在高自由度控制问题中的有效性，能够更高效地找到不同权衡解，并在多任务分类和回归问题上表现优越。

学习帕累托集合用于多目标连续机器人控制

BriefGPT - AI 论文速递 ·

本文探讨了多目标强化学习中的超参数优化挑战，提出了一种系统性方法以提升代理性能，并推荐最佳实践以提高可重复性和降低计算成本。研究表明，结合历史信息和并行资源的框架在5G通信案例中显著提高了性能。

结合超参数自动优化和奖励形状

BriefGPT - AI 论文速递 ·

本文研究了薪水优化与多目标强化学习，提出了一种新算法以平衡多个财务目标和安全约束。通过强化学习和在线凸优化，确保在未知环境中实现公平性，并展示了算法在复杂任务中的有效性和优势。

多目标强化学习的最大最小公式：从理论到无模型算法

BriefGPT - AI 论文速递 ·

本文探讨了多目标强化学习（MORL）的新算法及其在连续控制问题中的应用，提出了基于效用的范式和新方法，如PD-MORL和DG-MORL，旨在提升算法性能和计算效率。研究表明，良好的奖励信号和适应性强的算法设计能显著改善学习效果，推动MORL领域的发展。

基于 UCB 驱动的多目标增强学习的效用函数搜索

BriefGPT - AI 论文速递 ·

本文探讨了将道德嵌入智能系统的重要性，提出通过强化学习设计奖励结构以应对道德问题，并分析其对智能体行为的影响。研究强调在自主代理中融入道德性的必要性，提出多目标强化学习方法，以提升智能体的道德能力和适应社会规范，解决未来人工智能的安全与伦理挑战。

学习代理人异质群体中的道德行为动力学

BriefGPT - AI 论文速递 ·

本研究比较了单目标和多目标强化学习方法，针对机器人导航问题进行了探究。通过修改奖励函数，机器人学习了平衡不同目标的策略。研究显示多目标强化学习在机器人导航任务中具有潜力，为进一步研究机器人行为奠定了基础。

基于效用的强化学习：统一单目标与多目标强化学习

BriefGPT - AI 论文速递 ·

本研究比较了单目标和多目标强化学习方法，针对机器人导航问题进行了探究。通过修改奖励函数，机器人学习了平衡不同目标的策略。研究表明，多目标强化学习在机器人导航任务中具有潜力，为进一步研究机器人行为奠定了基础。

增强机器人导航：单一和多目标强化学习策略的评估

BriefGPT - AI 论文速递 ·

该论文提出了一种将多目标强化学习与卷积自编码器相结合的方法，以提高城市紧急搜索和救援中的无人机导航。该方法利用城市布局的图像数据，无人机可以自主进行导航决策，优化路径，并抵消传统传感器无法解决的风力影响。测试表明，该方法可以增强复杂城市环境下无人机的搜索和救援任务。

城市无人机导航：自编码器学习融合的空气动力学

BriefGPT - AI 论文速递 ·

多目标强化学习：挑战性的机器人环境与研究请求

OpenAI ·