小红花·文摘

$GigaWorld-Policy——以动作为中心的世界动作模型：为降低推理延迟，训练用视频，推理去视频(与Fast-WAM类似)$

GigaWorld-Policy——以动作为中心的世界动作模型：为降低推理延迟，训练用视频，推理去视频(与Fast-WAM类似)

结构之法算法之道 ·

本文介绍了VITAL策略学习框架，通过将操作任务分为到达和局部交互两个阶段，结合视觉和触觉感知，提高机器人在精细操作中的成功率和泛化能力。VITAL利用视觉-语言模型进行目标定位，并通过触觉反馈实现高精度操作，克服了模仿学习和强化学习的局限性。

VITAL——结合ResNet视觉与MLP触觉且带语义增强的适用于「电源插拔」的可泛化BC：先VLM定位、后执行在线残差RL微调的策略(MLP作为动作头)

结构之法算法之道 ·

本研究提出DISCO方法，旨在解决强化学习在不平衡数据集上的优化不足。通过领域和难度感知的奖励缩放，DISCO显著提升了策略学习的效率，实验结果表明其性能比现有方法提高了5%，并在多领域对齐基准上创下新纪录。

DISCO平衡尺度：基于适应性领域和难度的强化学习在不平衡数据上的应用

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的世界建模框架WM3C，旨在解决强化学习中智能体在未知动态环境下的泛化问题。实验结果表明，WM3C在适应新任务、识别潜在过程和改进策略学习方面显著优于现有方法。

Reinforcement Learning in Unknown Environments through Language-Guided Composable Causal Component Modeling

BriefGPT - AI 论文速递 ·

本研究针对离线强化学习中的分布偏移问题，提出了离线机器人世界模型（RWM-O），以改进策略学习，增强泛化能力和安全性，推动基于真实数据的政策学习。

离线机器人世界模型：无需物理模拟器的机器人策略学习

BriefGPT - AI 论文速递 ·

本研究提出了一种名为文本到决策智能体（T2DA）的新框架，旨在解决传统强化学习系统在未见任务中获取高质量监督信号的限制。该框架通过自然语言直接监督通用策略学习，实现了零样本文本到决策的生成，并在MuJoCo和Meta-World基准上表现优于多个基线方法。

Text-to-Decision Agent: Learning Generalist Policies from Natural Language Supervision

BriefGPT - AI 论文速递 ·

本研究提出统一世界模型（UWM），通过结合视频和动作扩散，解决大规模机器人基础模型中模仿学习的扩展问题。UWM在统一变换器架构中整合这两种数据，显著提升了策略学习的通用性与鲁棒性。

Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets

BriefGPT - AI 论文速递 ·

本研究提出了一种新颖的备战棋策略学习方案，结合在线与离线方法，利用并行超级计算机的处理能力，实现了与顶尖玩家相当或更优的表现，推动了备战棋价值函数学习的进展。

Learning and Improving Backgammon Strategy

BriefGPT - AI 论文速递 ·

本研究提出了一种名为FACTR的方法，旨在提升远程操作和策略学习中的力反馈利用。通过减少视觉干扰，该模型在未见对象的泛化能力上提高了43%。

FACTR: Force-Focused Curriculum Training for Contact-Rich Policy Learning

BriefGPT - AI 论文速递 ·

本研究提出了一种三层次架构，通过自动发现宏动作来解决复杂高维任务中学习有效策略的挑战，从而提高了对新任务的快速适应能力，改善了样本效率和成功率。

层次元强化学习通过自动化宏动作发现

BriefGPT - AI 论文速递 ·

该研究提出了一种新算法，通过降低置信度空间维度来解决部分观察马尔可夫决策过程（POMDPs），并成功应用于移动机器人导航等任务。研究还探讨了多智能体情境下的代理模型、粒子滤波算法及领域知识在POMDP策略学习中的应用，显著提高了解决效率和准确度。

在假设驱动的信念MDP中解决多动态模型的不确定性

BriefGPT - AI 论文速递 ·

本研究提出了一种回报增强决策变换器（RADT）方法，旨在利用源域数据提升目标域的策略学习。实验结果表明，该方法在非动态强化学习中优于动态规划。

用于非动态强化学习的回报增强决策变换器

BriefGPT - AI 论文速递 ·

研究比较了最短时间任务与密集奖励任务的奖励机制，发现最短时间任务能够学习更优策略并提升性能。初始策略的目标达成率是稀疏反馈下学习成功的早期指标。实验表明，在真实机器人平台上，使用常数负奖励可在两到三小时内学习基于像素的策略。

基于时间最优传输奖励的机器人策略学习

BriefGPT - AI 论文速递 ·

一手训练，多手应用：国防科大提出灵巧手抓取策略迁移新方案

机器之心 ·

本研究解决了离线多智体强化学习中的协调失败问题，并提出了一种基于数据的方法来缓解该问题。实验结果证明了该方法的有效性，并展示了从简化游戏中得出的见解如何转化为对更复杂环境有用的理论基础见解。

将数据置于离线多智能体强化学习的中心

BriefGPT - AI 论文速递 ·

本文研究了离线多智体强化学习中的协调失败问题，并提出了一种基于数据的方法来缓解这个问题。实验结果表明该方法有效。作者认为基于优先选择的数据集采样是离线多智体强化学习中一个具有创新潜力的领域。

合作离线多智能体强化学习中的协调失败

BriefGPT - AI 论文速递 ·

研究人员提出了一种名为FCSRL的新框架，用于在安全强化学习中增强策略学习和约束估计。实证评估表明，该方法在多种任务中能够学习到更好的安全感知嵌入并取得优越的性能。

安全强化学习的一致性可行性表征学习

BriefGPT - AI 论文速递 ·

通过学习动态感知奖励函数，可以提高偏好基础增强学习的采样效率。通过迭代学习动态感知的状态 - 行动表示并从中引导基于偏好的奖励函数，可以实现更快的策略学习和更好的最终策略性能。在四足行走、行走者行走和猎豹奔跑中，通过50个偏好标签，性能与现有方法的500个偏好标签相同，并恢复了83%和66%的地面真实奖励策略性能，而它们分别只有38%和21%。这些性能提升证明了明确学习动态感知奖励模型的好处。

具有动力学感知奖励的样本高效偏好强化学习

BriefGPT - AI 论文速递 ·

本论文研究了策略学习中的规划问题，通过建立关系性神经网络的电路复杂度分析与目标回归搜索之间的联系，证明了电路宽度和深度与物体数量和规划周期成正比，揭示了设计策略学习神经网络的实用性。

关系神经网络能解决哪些规划问题？

BriefGPT - AI 论文速递 ·

本研究评估了物体装配任务中视觉表示的鲁棒性，并发现从头开始训练的视觉编码器在双臂操纵设置中表现更好。研究还提出了旋转表示和相关损失函数，以提高策略学习效果，并提出了一种用于评估视觉运动策略学习进展的新型任务场景，特别关注提高复杂装配任务的鲁棒性。

PolyFit: 一个通过模拟到现实适应实现未知多边形形状的嵌套孔组装框架

BriefGPT - AI 论文速递 ·