小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
GigaWorld-Policy——以动作为中心的世界动作模型:为降低推理延迟,训练用视频,推理去视频(与Fast-WAM类似)

GigaWorld-Policy是一种高效的以动作为中心的世界-动作模型,旨在提升机器人策略学习。该模型结合未来视觉动态与动作预测,优化学习效率并减少推理延迟。通过课程式训练和多样化视频源注入物理先验,在机器人数据上进行预训练,以增强对交互动力学的鲁棒性。

GigaWorld-Policy——以动作为中心的世界动作模型:为降低推理延迟,训练用视频,推理去视频(与Fast-WAM类似)

结构之法 算法之道
结构之法 算法之道 · 2026-03-23T15:52:37Z
Hume——系统1(VLM+评估头+动作头)与系统2(动作头)的组合:系统1做慢思考且通过价值评估选择对应的动作片段,让系统2持续扩散去噪

本文介绍了Hume模型,该模型结合双系统思维(System-1和System-2),提升机器人在复杂任务中的表现。Hume通过价值引导的重复采样和级联动作去噪机制,实现高效的动作预测和实时控制。System-2生成候选动作并评估其价值,System-1则快速执行细化动作,使机器人能够灵活应对动态环境。

Hume——系统1(VLM+评估头+动作头)与系统2(动作头)的组合:系统1做慢思考且通过价值评估选择对应的动作片段,让系统2持续扩散去噪

结构之法 算法之道
结构之法 算法之道 · 2025-12-29T11:03:03Z

HybridVLA是一种新型视觉-语言-动作模型,结合自回归和扩散策略,旨在提升机器人在动态环境中的操作能力。通过协同训练,该模型有效整合两种生成方法的优势,提高了动作预测的准确性和鲁棒性,并在多样化数据集上展现出优越的性能。

HybridVLA——让单一LLM同时具备扩散和自回归动作预测能力:训练时既扩散也回归,但推理时则扩散

结构之法 算法之道
结构之法 算法之道 · 2025-06-07T16:22:52Z

本研究提出了一种三重层次扩散策略(H$^{3}$DP),有效解决视觉感知与动作预测的耦合问题。H$^{3}$DP在44个仿真任务中性能提升27.5%,并在4个双手操作任务中表现优异,显示出其潜在影响。

H$^{ extbf{3}}$DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-12T00:00:00Z
UI-R1|仅136张截图,vivo开源DeepSeek R1式强化学习,提升GUI智能体动作预测

基于规则的强化学习(RL/RFT)显著提升了GUI智能体的动作预测能力。研究团队设计了独特的奖励函数,精选高质量样本,并采用GRPO算法,显著改善了模型在不同平台的表现,验证了数据质量的重要性和强化学习的潜力。

UI-R1|仅136张截图,vivo开源DeepSeek R1式强化学习,提升GUI智能体动作预测

机器之心
机器之心 · 2025-04-08T10:33:05Z

本研究通过引入基于规则的强化学习,解决了多模态大语言模型在图形用户界面(GUI)动作预测中的推理能力不足的问题。实验结果显示,该方法在多个任务上显著提高了准确性,尤其在AndroidControl和ScreenSpot-Pro基准测试中,准确率分别提升了15%和6%。

UI-R1: Enhancing Action Prediction of GUI Agents through Reinforcement Learning

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-27T00:00:00Z

本文讨论了2024年具身模型和策略的发展,重点在于训练数据来源、动作预测策略和模型训练方法。通过预训练和微调,提升了机器人策略的泛化能力,强调了数据和架构的重要性。

一次性总结数十个具身模型(2024-2025):从训练数据、动作预测、训练方法到Robotics VLM、VLA(如π0等)

结构之法 算法之道
结构之法 算法之道 · 2025-02-01T07:20:33Z

文章讨论了对π0开源项目的期待与遗憾,分析了OpenVLA和CogACT的源码,重点介绍了动作预测模块的实现,包括ActionTokenizer类的功能和Diffusion Transformer的架构。通过对比不同模型,探讨如何改进VLA以接近π0的思路。

一文通透OpenVLA及其源码剖析——基于Prismatic VLM(SigLIP、DinoV2、Llama 2)及离散化动作预测

结构之法 算法之道
结构之法 算法之道 · 2025-01-11T14:25:54Z

本文提出了一种“一步扩散策略”,有效解决了扩散模型在实时机器人控制中的生成速度慢的问题。通过知识蒸馏,该方法显著提升了响应速度,成功率在多项任务中达到了最先进水平,动作预测频率从1.5 Hz提升至62 Hz,具有广泛的应用潜力。

One-Step Diffusion Strategy: Achieving Fast Visual Motion Policies through Diffusion Distillation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-28T00:00:00Z

本研究提出了RoboPrompt框架,解决大型语言模型在机器人动作预测中的不足。通过上下文学习技术,无需训练即可实现基于文本的动作预测。RoboPrompt通过识别和描述关键帧,在模拟和真实环境中表现优于零样本和ICL基线。

Contextual Learning Enables Robot Action Prediction in Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-16T00:00:00Z

本研究提出了一种动态思维规划(D-PoT)方法,旨在提高图形用户界面(GUI)任务中的动作预测准确性。D-PoT能够根据环境反馈和执行历史动态调整计划,准确性提升12.7%。该方法展示了动态规划在大型语言模型中的应用潜力。

Dynamic Planning for LLM-based Graphical User Interface Automation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-01T00:00:00Z

GazeMotion是一种新方法,通过结合人体姿势和眼睛注视信息来预测人体动作。该方法在多个数据集上表现优异,关节位置误差平均改进7.4%。研究表明,眼睛注视对动作预测至关重要,且在感知逼真度方面超越了以往方法。

HOIMotion: 使用自我中心的 3D 物体边界框预测人与物体交互中的人体动作

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-02T00:00:00Z

本研究探讨了大型语言模型(LLMs)在提升自动驾驶车辆动作预测准确性方面的应用。通过引入MotionLM和LC-LLM模型,研究实现了对动态车辆轨迹和变道意图的有效预测,并增强了可解释性。实验结果显示,这些模型在多智能体运动预测和人类行为理解方面表现优异,展示了LLMs在自动驾驶领域的潜力。

iMotion-LLM: 运动预测指令调优

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-10T00:00:00Z

RoboFlamingo是一个开源机器人操作模型,利用大型视觉-语言基础模型进行训练,能够在复杂的机器人操作任务中表现出色。RoboFlamingo通过视觉编码器、特征融合解码器和策略头部三个模块实现机器人每一步的动作预测。实验结果显示,RoboFlamingo在各种设置和指标上的性能都很好。这项工作为机器人技术研究者提供了一个强大的开源框架,能够更容易地发挥开源视觉-语言模型的潜能。

带RL的机器人:从类似预测下一个token的伯克利Digit到CMU 18万机器人

结构之法 算法之道
结构之法 算法之道 · 2024-01-27T16:00:55Z

我们提出了一种多模态预测变压器(MAT)架构,使用多模态特征和文本字幕预测未来动作。通过实验评估了预训练阶段的有效性,并展示了模型的优势。结果显示文本描述有助于更有效的动作预测。

文本输入模态对动作预测效果的研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-23T00:00:00Z

AVT是一种基于注意力机制的视频建模架构,通过关注之前观察过的视频来预测未来的动作。AVT在多个动作预测基准测试中表现出最佳性能,并在挑战赛中获得第一名。

HaltingVT: 适用于高效视频识别的自适应停止令牌变换器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-10T00:00:00Z

该文介绍了一种基于多阶段LSTM网络的动作预测方法,能够在视频序列仅有少量片段的情况下实现高准确度的预测。在多个公开数据集上,相对提升了22.0%(JHMDB-21),14.0%(UT-Interaction),和49.9%(UCF-101)的准确率。

行为预测的深度学习技术综述

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-29T00:00:00Z

AVT是一种基于注意力机制的视频建模架构,能够预测未来的动作。AVT在保持观察到的动作的时序进展的同时捕捉了长时间的依赖性,达到了最佳性能,并在EpicKitchens-100 CVPR'21挑战赛中获得了第一名。

人类中心视频中基于知识引导的短上下文动作预测

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-12T00:00:00Z

该文介绍了一种使用多阶段LSTM网络和上下文感知、动作感知特征的新动作预测方法,引入新的损失函数,能够在视频序列仅有少量片段的情况下实现高准确度的预测。在多个公开数据集上,相对提升了22.0%(JHMDB-21),14.0%(UT-Interaction),和49.9%(UCF-101)的准确率。

JOADAA:联合在线动作检测和动作预测

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-12T00:00:00Z

AVT是一种基于注意力机制的视频建模架构,能够通过关注之前的视频来预测未来的动作。AVT能够捕捉长时间的依赖性,提高预测性能,并在多个动作预测基准测试中表现最佳。AVT在EpicKitchens-100 CVPR'21挑战赛中获得第一名。

在线行动理解的记忆与预测变换器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-15T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码