小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
GigaWorld-Policy——以动作为中心的世界动作模型:为降低推理延迟,训练用视频,推理能可选性的去视频(类似τ0​-WM)

GigaWorld-Policy是一种高效的以动作为中心的世界-动作模型,旨在提升机器人策略学习。该模型结合未来视觉动态与动作预测,优化学习效率并减少推理延迟。通过课程式训练和多样化视频源注入物理先验,在机器人数据上进行预训练,以增强对交互动力学的鲁棒性。

GigaWorld-Policy——以动作为中心的世界动作模型:为降低推理延迟,训练用视频,推理能可选性的去视频(类似τ0​-WM)

结构之法 算法之道
结构之法 算法之道 · 2026-03-23T15:52:37Z

本文介绍了VITAL策略学习框架,通过将操作任务分为到达和局部交互两个阶段,结合视觉和触觉感知,提高机器人在精细操作中的成功率和泛化能力。VITAL利用视觉-语言模型进行目标定位,并通过触觉反馈实现高精度操作,克服了模仿学习和强化学习的局限性。

VITAL——结合ResNet视觉与MLP触觉且带语义增强的适用于「电源插拔」的可泛化BC:先VLM定位、后执行在线残差RL微调的策略(MLP作为动作头)

结构之法 算法之道
结构之法 算法之道 · 2025-07-03T09:01:43Z

本研究提出DISCO方法,旨在解决强化学习在不平衡数据集上的优化不足。通过领域和难度感知的奖励缩放,DISCO显著提升了策略学习的效率,实验结果表明其性能比现有方法提高了5%,并在多领域对齐基准上创下新纪录。

DISCO平衡尺度:基于适应性领域和难度的强化学习在不平衡数据上的应用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z

本研究提出了一种新颖的世界建模框架WM3C,旨在解决强化学习中智能体在未知动态环境下的泛化问题。实验结果表明,WM3C在适应新任务、识别潜在过程和改进策略学习方面显著优于现有方法。

Reinforcement Learning in Unknown Environments through Language-Guided Composable Causal Component Modeling

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-13T00:00:00Z

本研究针对离线强化学习中的分布偏移问题,提出了离线机器人世界模型(RWM-O),以改进策略学习,增强泛化能力和安全性,推动基于真实数据的政策学习。

离线机器人世界模型:无需物理模拟器的机器人策略学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-23T00:00:00Z

本研究提出了一种名为文本到决策智能体(T2DA)的新框架,旨在解决传统强化学习系统在未见任务中获取高质量监督信号的限制。该框架通过自然语言直接监督通用策略学习,实现了零样本文本到决策的生成,并在MuJoCo和Meta-World基准上表现优于多个基线方法。

Text-to-Decision Agent: Learning Generalist Policies from Natural Language Supervision

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-21T00:00:00Z

本研究提出统一世界模型(UWM),通过结合视频和动作扩散,解决大规模机器人基础模型中模仿学习的扩展问题。UWM在统一变换器架构中整合这两种数据,显著提升了策略学习的通用性与鲁棒性。

Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-03T00:00:00Z

本研究提出了一种新颖的备战棋策略学习方案,结合在线与离线方法,利用并行超级计算机的处理能力,实现了与顶尖玩家相当或更优的表现,推动了备战棋价值函数学习的进展。

Learning and Improving Backgammon Strategy

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-03T00:00:00Z

本研究提出了一种名为FACTR的方法,旨在提升远程操作和策略学习中的力反馈利用。通过减少视觉干扰,该模型在未见对象的泛化能力上提高了43%。

FACTR: Force-Focused Curriculum Training for Contact-Rich Policy Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-24T00:00:00Z

本研究提出了一种三层次架构,通过自动发现宏动作来解决复杂高维任务中学习有效策略的挑战,从而提高了对新任务的快速适应能力,改善了样本效率和成功率。

层次元强化学习通过自动化宏动作发现

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-16T00:00:00Z

该研究提出了一种新算法,通过降低置信度空间维度来解决部分观察马尔可夫决策过程(POMDPs),并成功应用于移动机器人导航等任务。研究还探讨了多智能体情境下的代理模型、粒子滤波算法及领域知识在POMDP策略学习中的应用,显著提高了解决效率和准确度。

在假设驱动的信念MDP中解决多动态模型的不确定性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-21T00:00:00Z

本文探讨了通过人类遥操作游戏数据提取自我监督视觉模型的方法,结合策略学习和强化学习,实现机器人在复杂环境中的高效操作。研究提出了多种控制策略学习框架,并展示了其在不同操纵任务中的优越性,同时探讨了利用互联网视频训练视觉能力模型的方法,以提升机器人执行任务的能力。

RT-可供性:可供性是机器人操作的多功能中介表示

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-05T00:00:00Z

本研究提出了一种回报增强决策变换器(RADT)方法,旨在利用源域数据提升目标域的策略学习。实验结果表明,该方法在非动态强化学习中优于动态规划。

用于非动态强化学习的回报增强决策变换器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-30T00:00:00Z

本研究提出了一种基于蒙特卡洛树搜索的近似贝叶斯最优规划方法,显著提升了离线强化学习的性能。通过优化模型训练和策略学习,解决了数据分布漂移问题,并在多项基准测试中表现优异。此外,研究探讨了通过引导策略和反探索奖励改善模型基强化学习效果的方法。

基于贝叶斯自适应的蒙特卡洛树搜索的离线模型强化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-15T00:00:00Z

本研究提出利用变分不等式技术改进多智能体强化学习中的策略学习,特别是通过Nested-Lookahead VI和Extragradient方法优化深度确定性策略梯度算法。实验证明,这些方法在多种基准环境中显著提升了性能和稳定性。

Variational Inequality Methods for Multi-Agent Reinforcement Learning: Enhancements in Performance and Stability

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-10T00:00:00Z
一手训练,多手应用:国防科大提出灵巧手抓取策略迁移新方案

国防科技大学与深圳大学研究者提出了一种新策略学习方法,解决机器人灵巧手抓取任务的跨手转移问题。通过分离高层运动生成与低层关节控制,实现策略在不同灵巧手间的低成本迁移,保持抓取性能。采用基于Transformer的策略网络,提升模型的适应性和泛化能力。实验验证了该方法在多种灵巧手和物体上的优越性能。

一手训练,多手应用:国防科大提出灵巧手抓取策略迁移新方案

机器之心
机器之心 · 2024-10-01T06:28:59Z

本文提出了一种基于广义Bellman方程的多目标强化学习算法,旨在通过少量样本快速适应新任务并生成最优策略。该算法利用偏好指导更新网络参数,并采用新并行化方法提高采样效率,适用于连续机器人任务。同时,研究探讨了离线强化学习中的分布偏移问题,提出新方法以改善策略学习效果,并在多个基准任务上取得了先进结果。

MODULI:通过扩散模型解锁离线多目标强化学习中的偏好泛化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-28T00:00:00Z

该研究论文探讨了扩散模型在机器人和视觉强化学习中的应用,包括数据增强、策略学习和个性化能力提升。实验结果表明,这些方法在样本效率和性能上表现优异,验证了扩散模型在生成高质量样本和标签方面的有效性。

扩散增强代理:高效探索和迁移学习框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-30T00:00:00Z

本文研究了离线多智体强化学习中的协调失败问题,并提出了一种基于数据的方法来缓解这个问题。实验结果表明该方法有效。作者认为基于优先选择的数据集采样是离线多智体强化学习中一个具有创新潜力的领域。

合作离线多智能体强化学习中的协调失败

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-01T00:00:00Z

本文探讨了动态感知奖励函数在偏好基础增强学习中的应用,显著提高了采样效率和策略学习速度。在多种机器人任务中,使用50个偏好标签的性能与500个标签相当,并恢复了较高的真实奖励策略性能。此外,提出了通过人机交互和自训练方法来优化奖励模型,克服了偏好强化学习中的挑战,提升了学习效率和鲁棒性。

通过对齐的经验估计实现高效的基于偏好的强化学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-29T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码