小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了一种新方法,通过结合轨迹草图和代理性能设计连续控制机器人的奖励函数,有效解决了奖励不匹配和黑客问题。实验结果显示,该方法在多项任务中的成功率达到70-80%,比传统方法提高了20-30%。

VARP: A Method for Reinforcement Learning and Agent Regularization Preferences Based on Visual-Language Model Feedback

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-18T00:00:00Z

本研究提出了一种新方法SMOSE,旨在解决连续控制任务中的可解释性问题。通过结合多个可解释决策者和路由器,SMOSE提高了解释的便利性,并在多个基准环境中超越现有的可解释基线,缩小了与非可解释算法的差距。

SMOSE:稀疏混合浅层专家用于连续控制任务中的可解释强化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-17T00:00:00Z

本研究通过引入欧几里得对称性的数据增强方法,提高了强化学习在连续控制任务中的数据效率和性能。结果显示,该方法在多种任务中表现优异,具有重要应用潜力。

基于欧几里得数据增强的强化学习在状态驱动的连续控制中的应用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-16T00:00:00Z

最新的语言模型对齐方法提出了一种离线强化学习优化,通过微调生成策略和任务注释,利用多样行为数据提升泛化能力。引入了一种名为Efficient Diffusion Alignment (EDA)的方法,解决连续控制问题,并扩展偏好对齐,使扩散行为与连续Q函数对齐。实验结果显示,EDA在整体性能上优于所有基准方法,即使只使用1%的Q标记数据,仍表现出色。

DIAR:基于扩散模型的隐式Q学习与自适应重估

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-15T00:00:00Z

本文提出了一种统一框架,将贝尔曼方程中的随机性视为外部噪声的确定性函数,支持连续控制策略的学习。该框架提供了一系列策略梯度算法,从无模型到有模型的方法。算法仅需环境观察,减少模型误差影响。在随机控制问题和物理模拟中,SVG(1)变体展示了同时学习模型、价值函数和策略的有效性。

无仿真深度学习方法解决随机最优控制问题

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-07T00:00:00Z

本文研究了学习策略中监督者变化的问题,提出了一种从收敛监督者进行模仿学习的方法。作者将该框架与DPI强化学习算法结合,在连续控制任务中表现优于深度强化学习基线,并实现了策略评估速度提升至80倍。

通用策略的主动微调

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-07T00:00:00Z

本文提出了一种统一框架,将贝尔曼方程中的随机性视为外部噪声的确定性函数,支持连续控制策略的学习。介绍了一系列策略梯度算法,从无模型到有模型的方法,仅需环境观察,减少模型误差影响。算法在随机控制问题和物理模拟中应用,特别是SVG(1)在连续领域中有效地学习模型、价值函数和策略。

无模型随机过程建模与优化:基于归一化流的方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-26T00:00:00Z
多目标强化学习:挑战性的机器人环境与研究请求

本文介绍了一套基于现有机器人硬件的连续控制任务,包括Fetch机器人臂的推、滑、抓取操作,以及Shadow灵巧手的物体操控。这些任务采用稀疏奖励,并遵循多目标强化学习框架。文章还提出了改进强化学习算法的研究思路,重点在多目标强化学习和事后经验重放。

多目标强化学习:挑战性的机器人环境与研究请求

OpenAI
OpenAI · 2018-02-26T08:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码