小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了一种新方法,通过结合轨迹草图和代理性能设计连续控制机器人的奖励函数,有效解决了奖励不匹配和黑客问题。实验结果显示,该方法在多项任务中的成功率达到70-80%,比传统方法提高了20-30%。

VARP: A Method for Reinforcement Learning and Agent Regularization Preferences Based on Visual-Language Model Feedback

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-18T00:00:00Z

本研究通过引入欧几里得对称性的数据增强方法,提高了强化学习在连续控制任务中的数据效率和性能。结果显示,该方法在多种任务中表现优异,具有重要应用潜力。

基于欧几里得数据增强的强化学习在状态驱动的连续控制中的应用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-16T00:00:00Z

本文提出了一种统一框架,通过反向传播学习连续控制策略,支持随机控制。研究展示了多种算法在高维随机控制问题中的有效性,强调了深度学习与动态系统结合的潜力,并提出了改进的强化学习算法以提高数据效率,探讨了安全轨迹优化和风险敏感控制的应用。

无仿真深度学习方法解决随机最优控制问题

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-07T00:00:00Z

本文综述了强化学习在连续控制中的应用,特别是模型预测控制(MPC)与强化学习的结合。研究提出了多目标强化学习框架和基于信息理论的Q学习算法,验证了其在实际控制任务中的有效性,并提出了新的参数化控制器,以提高计算效率和性能保证,展示了在实际场景中的应用潜力。

将强化学习与模型预测控制相结合及其在微电网中的应用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-17T00:00:00Z

本文探讨了自我监督学习在连续控制任务中的应用,提出了多种方法以提升强化学习的效率与泛化能力,包括图神经网络、深度强化学习和无监督策略。研究表明,改进表示学习和引入新框架能显著提高机器人控制任务的样本效率和成功率。

RoboKoop:基于Koopman算子的视觉输入下高效控制条件表示

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-04T00:00:00Z

本文探讨了连续控制中动作空间离散化对策略优化的影响,提出了基于神经网络的离散化建模、随机策略表示和带参数的深度 Q 网络(P-DQN)框架等新方法。这些方法在高维连续控制任务中显著提升了性能,并解决了局部最优问题。同时,研究还涉及安全强化学习中的策略分叉现象及其优化算法。

使用单模态概率分布对连续动作空间离散化的在线策略强化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-01T00:00:00Z

本文介绍了一种名为质量-多样性演员-评论家(QDAC)的深度强化学习算法,旨在解决复杂的连续控制任务。QDAC通过优化两个评论家,最大化回报并执行多样化技能,表现出显著的性能提升和适应能力,优于其他方法,展示了广泛的应用潜力。

候选 DAC: 在 DAC 中利用耦合的动作维度和重要性差异

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-08T00:00:00Z

本文探讨了通过简单算法和良好表示解决强化学习中的连续控制问题,提出了一种离散化连续状态空间的方法,并在机器人倒立摆平衡的模拟环境中验证了其有效性。研究表明,该方法在高维动作空间中表现出强大性能,强调了准确表示物理世界的重要性。

如何在 Q 学习中对连续状态 - 动作空间进行离散化:一种符号控制方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-03T00:00:00Z

本文介绍了一种新的无模型策略搜索算法POIS,适用于强化学习中的连续控制任务。该算法通过离线优化轨迹批次来定义替代目标函数,并解决了目标函数的方差问题。同时,探讨了改良的PPO算法和重要性采样方法在强化学习中的应用,旨在提高样本效率和预测性能。

策略梯度与主动重要性抽样

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-09T00:00:00Z

本文探讨了多目标强化学习(MORL)的新算法及其在连续控制问题中的应用,提出了基于效用的范式和新方法,如PD-MORL和DG-MORL,旨在提升算法性能和计算效率。研究表明,良好的奖励信号和适应性强的算法设计能显著改善学习效果,推动MORL领域的发展。

基于 UCB 驱动的多目标增强学习的效用函数搜索

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-01T00:00:00Z
多目标强化学习:挑战性的机器人环境与研究请求

本文介绍了一套基于现有机器人硬件的连续控制任务,包括Fetch机器人臂的推、滑、抓取操作,以及Shadow灵巧手的物体操控。这些任务采用稀疏奖励,并遵循多目标强化学习框架。文章还提出了改进强化学习算法的研究思路,重点在多目标强化学习和事后经验重放。

多目标强化学习:挑战性的机器人环境与研究请求

OpenAI
OpenAI · 2018-02-26T08:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码