小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了一种集成多目标强化学习(EMORL)框架,旨在解决大型语言模型微调中的复杂目标平衡、低训练效率和可扩展性差的问题。实验结果表明,EMORL在效率和灵活性方面优于现有方法。

EMORL: Ensemble Multi-Objective Reinforcement Learning for Efficient and Flexible Fine-Tuning of LLMs

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-05T00:00:00Z

本文提出了一种利用离线轨迹数据训练多目标强化学习策略的方法,扩展了单目标正则化技术以解决偏好不一致的问题。通过过滤不一致的演示和高表达能力的正则化,结合偏好条件化更新,降低了计算成本。实证结果表明该方法有效应对离线多目标强化学习问题。

离线偏好强化学习中的数据集内轨迹返回正则化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-12T00:00:00Z

本文提出了一种基于洛伦兹支配的新算法,解决了多目标强化学习中的公平性与可扩展性矛盾。研究表明,该方法在西安和阿姆斯特丹的交通规划中显著提升了政策的公平性和可扩展性。

具有公平性保证的可扩展多目标强化学习:使用洛伦兹支配

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-27T00:00:00Z

本研究探讨了多目标强化学习中的目标权衡问题,提出了一种基于聚类的方法,揭示了政策行为与目标值之间的关系。结果表明,该方法在四个多目标环境中优于传统的k-中点聚类,具有实际应用潜力。

权衡导航:多目标强化学习的政策摘要

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-07T00:00:00Z

本研究提出了一种动态对齐方法,利用多目标强化学习(MORL)来应对多元化人工智能(AI)对齐挑战,从而提高AI系统与用户需求的匹配度,具有广泛的应用潜力和社会影响。

自适应对齐:通过多目标强化学习动态调整偏好以实现多元化人工智能

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-31T00:00:00Z

研究探讨了在多重冲突价值观和利益相关者背景下,如何有效对齐基于标量奖励的强化学习问题。提出多目标强化学习(MORL)作为替代方案,利用向量奖励更好地处理复杂价值观,提升AI系统的多样性和满意度。研究展示了MORL在创建多元对齐AI中的重要性,并验证了其在不同应用中的有效性。

多目标强化学习:实现多元对齐的工具

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-15T00:00:00Z

本研究提出了一种新方法,利用大型语言模型作为白盒搜索者,解决复杂自定义环境和多种需求下强化学习任务中奖励函数设计的挑战。该方法能够高效生成和优化奖励组件,提高多目标强化学习的效率。

大型语言模型作为自定义环境多目标强化学习的高效奖励函数搜索耠

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-04T00:00:00Z

本文研究多目标强化学习在实际问题中的应用,提出了无模型算法。所提出的理论突破了多目标强化学习的限制,算法性能优于基准方法。

多目标强化学习的最大最小公式:从理论到无模型算法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-12T00:00:00Z

本研究比较了单目标和多目标强化学习方法,针对机器人导航问题进行了探究。通过修改奖励函数,机器人学习了平衡不同目标的策略。研究显示多目标强化学习在机器人导航任务中具有潜力,为进一步研究机器人行为奠定了基础。

基于效用的强化学习:统一单目标与多目标强化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-05T00:00:00Z

本研究比较了单目标和多目标强化学习方法,针对机器人导航问题进行了探究。通过修改奖励函数,机器人学习了平衡不同目标的策略。研究表明,多目标强化学习在机器人导航任务中具有潜力,为进一步研究机器人行为奠定了基础。

增强机器人导航:单一和多目标强化学习策略的评估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-13T00:00:00Z

该论文提出了一种将多目标强化学习与卷积自编码器相结合的方法,以提高城市紧急搜索和救援中的无人机导航。该方法利用城市布局的图像数据,无人机可以自主进行导航决策,优化路径,并抵消传统传感器无法解决的风力影响。测试表明,该方法可以增强复杂城市环境下无人机的搜索和救援任务。

城市无人机导航:自编码器学习融合的空气动力学

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-13T00:00:00Z
多目标强化学习:挑战性的机器人环境与研究请求

本文介绍了一套基于现有机器人硬件的连续控制任务,包括Fetch机器人臂的推、滑、抓取操作,以及Shadow灵巧手的物体操控。这些任务采用稀疏奖励,并遵循多目标强化学习框架。文章还提出了改进强化学习算法的研究思路,重点在多目标强化学习和事后经验重放。

多目标强化学习:挑战性的机器人环境与研究请求

OpenAI
OpenAI · 2018-02-26T08:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码