GigaWorld-Policy是一种高效的以动作为中心的世界-动作模型,旨在提升机器人策略学习。该模型结合未来视觉动态与动作预测,优化学习效率并减少推理延迟。通过课程式训练和多样化视频源注入物理先验,在机器人数据上进行预训练,以增强对交互动力学的鲁棒性。
本文介绍了Hume模型,该模型结合双系统思维(System-1和System-2),提升机器人在复杂任务中的表现。Hume通过价值引导的重复采样和级联动作去噪机制,实现高效的动作预测和实时控制。System-2生成候选动作并评估其价值,System-1则快速执行细化动作,使机器人能够灵活应对动态环境。
HybridVLA是一种新型视觉-语言-动作模型,结合自回归和扩散策略,旨在提升机器人在动态环境中的操作能力。通过协同训练,该模型有效整合两种生成方法的优势,提高了动作预测的准确性和鲁棒性,并在多样化数据集上展现出优越的性能。
本研究提出了一种三重层次扩散策略(H$^{3}$DP),有效解决视觉感知与动作预测的耦合问题。H$^{3}$DP在44个仿真任务中性能提升27.5%,并在4个双手操作任务中表现优异,显示出其潜在影响。
基于规则的强化学习(RL/RFT)显著提升了GUI智能体的动作预测能力。研究团队设计了独特的奖励函数,精选高质量样本,并采用GRPO算法,显著改善了模型在不同平台的表现,验证了数据质量的重要性和强化学习的潜力。
本研究通过引入基于规则的强化学习,解决了多模态大语言模型在图形用户界面(GUI)动作预测中的推理能力不足的问题。实验结果显示,该方法在多个任务上显著提高了准确性,尤其在AndroidControl和ScreenSpot-Pro基准测试中,准确率分别提升了15%和6%。
本文讨论了2024年具身模型和策略的发展,重点在于训练数据来源、动作预测策略和模型训练方法。通过预训练和微调,提升了机器人策略的泛化能力,强调了数据和架构的重要性。
文章讨论了对π0开源项目的期待与遗憾,分析了OpenVLA和CogACT的源码,重点介绍了动作预测模块的实现,包括ActionTokenizer类的功能和Diffusion Transformer的架构。通过对比不同模型,探讨如何改进VLA以接近π0的思路。
本文提出了一种“一步扩散策略”,有效解决了扩散模型在实时机器人控制中的生成速度慢的问题。通过知识蒸馏,该方法显著提升了响应速度,成功率在多项任务中达到了最先进水平,动作预测频率从1.5 Hz提升至62 Hz,具有广泛的应用潜力。
本研究提出了RoboPrompt框架,解决大型语言模型在机器人动作预测中的不足。通过上下文学习技术,无需训练即可实现基于文本的动作预测。RoboPrompt通过识别和描述关键帧,在模拟和真实环境中表现优于零样本和ICL基线。
本研究提出了一种动态思维规划(D-PoT)方法,旨在提高图形用户界面(GUI)任务中的动作预测准确性。D-PoT能够根据环境反馈和执行历史动态调整计划,准确性提升12.7%。该方法展示了动态规划在大型语言模型中的应用潜力。
GazeMotion是一种新方法,通过结合人体姿势和眼睛注视信息来预测人体动作。该方法在多个数据集上表现优异,关节位置误差平均改进7.4%。研究表明,眼睛注视对动作预测至关重要,且在感知逼真度方面超越了以往方法。
本研究探讨了大型语言模型(LLMs)在提升自动驾驶车辆动作预测准确性方面的应用。通过引入MotionLM和LC-LLM模型,研究实现了对动态车辆轨迹和变道意图的有效预测,并增强了可解释性。实验结果显示,这些模型在多智能体运动预测和人类行为理解方面表现优异,展示了LLMs在自动驾驶领域的潜力。
RoboFlamingo是一个开源机器人操作模型,利用大型视觉-语言基础模型进行训练,能够在复杂的机器人操作任务中表现出色。RoboFlamingo通过视觉编码器、特征融合解码器和策略头部三个模块实现机器人每一步的动作预测。实验结果显示,RoboFlamingo在各种设置和指标上的性能都很好。这项工作为机器人技术研究者提供了一个强大的开源框架,能够更容易地发挥开源视觉-语言模型的潜能。
我们提出了一种多模态预测变压器(MAT)架构,使用多模态特征和文本字幕预测未来动作。通过实验评估了预训练阶段的有效性,并展示了模型的优势。结果显示文本描述有助于更有效的动作预测。
AVT是一种基于注意力机制的视频建模架构,通过关注之前观察过的视频来预测未来的动作。AVT在多个动作预测基准测试中表现出最佳性能,并在挑战赛中获得第一名。
该文介绍了一种基于多阶段LSTM网络的动作预测方法,能够在视频序列仅有少量片段的情况下实现高准确度的预测。在多个公开数据集上,相对提升了22.0%(JHMDB-21),14.0%(UT-Interaction),和49.9%(UCF-101)的准确率。
AVT是一种基于注意力机制的视频建模架构,能够预测未来的动作。AVT在保持观察到的动作的时序进展的同时捕捉了长时间的依赖性,达到了最佳性能,并在EpicKitchens-100 CVPR'21挑战赛中获得了第一名。
该文介绍了一种使用多阶段LSTM网络和上下文感知、动作感知特征的新动作预测方法,引入新的损失函数,能够在视频序列仅有少量片段的情况下实现高准确度的预测。在多个公开数据集上,相对提升了22.0%(JHMDB-21),14.0%(UT-Interaction),和49.9%(UCF-101)的准确率。
AVT是一种基于注意力机制的视频建模架构,能够通过关注之前的视频来预测未来的动作。AVT能够捕捉长时间的依赖性,提高预测性能,并在多个动作预测基准测试中表现最佳。AVT在EpicKitchens-100 CVPR'21挑战赛中获得第一名。
完成下面两步后,将自动完成登录并继续当前操作。