小红花·文摘

$GigaWorld-Policy——以动作为中心的世界动作模型：为降低推理延迟，训练用视频，推理能可选性的去视频(类似τ0-WM)$

GigaWorld-Policy——以动作为中心的世界动作模型：为降低推理延迟，训练用视频，推理能可选性的去视频(类似τ0-WM)

结构之法算法之道 ·

$Hume——系统1(VLM+评估头+动作头)与系统2(动作头)的组合：系统1做慢思考且通过价值评估选择对应的动作片段，让系统2持续扩散去噪$

Hume——系统1(VLM+评估头+动作头)与系统2(动作头)的组合：系统1做慢思考且通过价值评估选择对应的动作片段，让系统2持续扩散去噪

结构之法算法之道 ·

HybridVLA是一种新型视觉-语言-动作模型，结合自回归和扩散策略，旨在提升机器人在动态环境中的操作能力。通过协同训练，该模型有效整合两种生成方法的优势，提高了动作预测的准确性和鲁棒性，并在多样化数据集上展现出优越的性能。

HybridVLA——让单一LLM同时具备扩散和自回归动作预测能力：训练时既扩散也回归，但推理时则扩散

结构之法算法之道 ·

本研究提出了一种三重层次扩散策略（H$^{3}$DP），有效解决视觉感知与动作预测的耦合问题。H$^{3}$DP在44个仿真任务中性能提升27.5%，并在4个双手操作任务中表现优异，显示出其潜在影响。

H$^{ extbf{3}}$DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning

BriefGPT - AI 论文速递 ·

UI-R1|仅136张截图，vivo开源DeepSeek R1式强化学习，提升GUI智能体动作预测

机器之心 ·

本研究通过引入基于规则的强化学习，解决了多模态大语言模型在图形用户界面（GUI）动作预测中的推理能力不足的问题。实验结果显示，该方法在多个任务上显著提高了准确性，尤其在AndroidControl和ScreenSpot-Pro基准测试中，准确率分别提升了15%和6%。

UI-R1: Enhancing Action Prediction of GUI Agents through Reinforcement Learning

BriefGPT - AI 论文速递 ·

本文讨论了2024年具身模型和策略的发展，重点在于训练数据来源、动作预测策略和模型训练方法。通过预训练和微调，提升了机器人策略的泛化能力，强调了数据和架构的重要性。

一次性总结数十个具身模型(2024-2025)：从训练数据、动作预测、训练方法到Robotics VLM、VLA(如π0等)

结构之法算法之道 ·

文章讨论了对π0开源项目的期待与遗憾，分析了OpenVLA和CogACT的源码，重点介绍了动作预测模块的实现，包括ActionTokenizer类的功能和Diffusion Transformer的架构。通过对比不同模型，探讨如何改进VLA以接近π0的思路。

一文通透OpenVLA及其源码剖析——基于Prismatic VLM(SigLIP、DinoV2、Llama 2)及离散化动作预测

结构之法算法之道 ·

本文提出了一种“一步扩散策略”，有效解决了扩散模型在实时机器人控制中的生成速度慢的问题。通过知识蒸馏，该方法显著提升了响应速度，成功率在多项任务中达到了最先进水平，动作预测频率从1.5 Hz提升至62 Hz，具有广泛的应用潜力。

One-Step Diffusion Strategy: Achieving Fast Visual Motion Policies through Diffusion Distillation

BriefGPT - AI 论文速递 ·

本研究提出了RoboPrompt框架，解决大型语言模型在机器人动作预测中的不足。通过上下文学习技术，无需训练即可实现基于文本的动作预测。RoboPrompt通过识别和描述关键帧，在模拟和真实环境中表现优于零样本和ICL基线。

Contextual Learning Enables Robot Action Prediction in Large Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种动态思维规划（D-PoT）方法，旨在提高图形用户界面（GUI）任务中的动作预测准确性。D-PoT能够根据环境反馈和执行历史动态调整计划，准确性提升12.7%。该方法展示了动态规划在大型语言模型中的应用潜力。

Dynamic Planning for LLM-based Graphical User Interface Automation

BriefGPT - AI 论文速递 ·

GazeMotion是一种新方法，通过结合人体姿势和眼睛注视信息来预测人体动作。该方法在多个数据集上表现优异，关节位置误差平均改进7.4%。研究表明，眼睛注视对动作预测至关重要，且在感知逼真度方面超越了以往方法。

HOIMotion: 使用自我中心的 3D 物体边界框预测人与物体交互中的人体动作

BriefGPT - AI 论文速递 ·

本研究探讨了大型语言模型（LLMs）在提升自动驾驶车辆动作预测准确性方面的应用。通过引入MotionLM和LC-LLM模型，研究实现了对动态车辆轨迹和变道意图的有效预测，并增强了可解释性。实验结果显示，这些模型在多智能体运动预测和人类行为理解方面表现优异，展示了LLMs在自动驾驶领域的潜力。

iMotion-LLM: 运动预测指令调优

BriefGPT - AI 论文速递 ·

该论文提出了多种自监督学习方法，包括RPT和EarthPT，旨在提升机器人感知和动作预测能力。研究表明，EarthPT在地表反射率预测和土地利用分类中表现优异。此外，PhysPT通过考虑物理规律改进了3D人体动作估计，PACT则通过共享表示加速机器人系统的实时部署。

EchoPT: 移动机器人的预训练变压器体系结构，用于预测 2D 空中声纳图像

BriefGPT - AI 论文速递 ·

本文提出了一种新框架，通过学习人类3D运动的时空表示，从单个图像恢复3D网格及其运动。模型利用半监督学习从自然视频中获取伪标签，展现了在三维动作预测中的优越性能，并涉及多模态学习、动作序列生成及人体姿态估计等技术，推动了人类运动捕捉和视频合成的进展。

通过跨模态流形对齐从单眼视频学习人类动作

BriefGPT - AI 论文速递 ·

本文探讨了基于深度学习的用户界面自动化技术，包括通过屏幕识别提升移动应用可访问性、利用多模态解决方案Auto-UI实现高准确率的动作预测，以及自动化GUI原型设计方法ReDraw的应用。这些研究旨在提升用户体验和任务自动化效率。

AURORA: 通过自动化神经屏幕理解导航用户界面陷阱

BriefGPT - AI 论文速递 ·

本文介绍了一种新颖的多模态运动生成方法，利用预训练模型将身体部位的运动转换为离散运动令牌。该方法通过逐步预测生成完整序列，具备高保真度和可编辑性，能够在多个数据集上生成高质量动画，并显著提高生成速度。同时，研究探讨了大型语言模型在动作预测和城市移动中的应用，展示了多模态模型的潜力和效率提升。

统一多模态运动生成的大型运动模型

BriefGPT - AI 论文速递 ·

RoboFlamingo是一个开源机器人操作模型，利用大型视觉-语言基础模型进行训练，能够在复杂的机器人操作任务中表现出色。RoboFlamingo通过视觉编码器、特征融合解码器和策略头部三个模块实现机器人每一步的动作预测。实验结果显示，RoboFlamingo在各种设置和指标上的性能都很好。这项工作为机器人技术研究者提供了一个强大的开源框架，能够更容易地发挥开源视觉-语言模型的潜能。

带RL的机器人：从类似预测下一个token的伯克利Digit到CMU 18万机器人

结构之法算法之道 ·

我们提出了一种多模态预测变压器（MAT）架构，使用多模态特征和文本字幕预测未来动作。通过实验评估了预训练阶段的有效性，并展示了模型的优势。结果显示文本描述有助于更有效的动作预测。

文本输入模态对动作预测效果的研究

BriefGPT - AI 论文速递 ·

AVT是一种基于注意力机制的视频建模架构，通过关注之前观察过的视频来预测未来的动作。AVT在多个动作预测基准测试中表现出最佳性能，并在挑战赛中获得第一名。

HaltingVT: 适用于高效视频识别的自适应停止令牌变换器

BriefGPT - AI 论文速递 ·

GigaWorld-Policy——以动作为中心的世界动作模型：为降低推理延迟，训练用视频，推理能可选性的去视频(类似τ0​-WM)

Hume——系统1(VLM+评估头+动作头)与系统2(动作头)的组合：系统1做慢思考且通过价值评估选择对应的动作片段，让系统2持续扩散去噪

HybridVLA——让单一LLM同时具备扩散和自回归动作预测能力：训练时既扩散也回归，但推理时则扩散

H$^{ extbf{3}}$DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning

UI-R1|仅136张截图，vivo开源DeepSeek R1式强化学习，提升GUI智能体动作预测

UI-R1: Enhancing Action Prediction of GUI Agents through Reinforcement Learning

一次性总结数十个具身模型(2024-2025)：从训练数据、动作预测、训练方法到Robotics VLM、VLA(如π0等)

一文通透OpenVLA及其源码剖析——基于Prismatic VLM(SigLIP、DinoV2、Llama 2)及离散化动作预测

One-Step Diffusion Strategy: Achieving Fast Visual Motion Policies through Diffusion Distillation

Contextual Learning Enables Robot Action Prediction in Large Language Models

Dynamic Planning for LLM-based Graphical User Interface Automation

HOIMotion: 使用自我中心的 3D 物体边界框预测人与物体交互中的人体动作

iMotion-LLM: 运动预测指令调优

EchoPT: 移动机器人的预训练变压器体系结构，用于预测 2D 空中声纳图像

通过跨模态流形对齐从单眼视频学习人类动作

AURORA: 通过自动化神经屏幕理解导航用户界面陷阱

统一多模态运动生成的大型运动模型

带RL的机器人：从类似预测下一个token的伯克利Digit到CMU 18万机器人

文本输入模态对动作预测效果的研究

HaltingVT: 适用于高效视频识别的自适应停止令牌变换器

GigaWorld-Policy——以动作为中心的世界动作模型：为降低推理延迟，训练用视频，推理能可选性的去视频(类似τ0-WM)