戴盟机器人发布了全球最大规模的全模态物理世界数据集Daimon-Infinity,涵盖触觉、视觉等多维信息,计划形成数百万小时的数据。该数据集将用于真实场景的物理交互,推动具身智能的发展,并已开源10000小时高质量数据,构建了外发式数据采集网络,形成完整的数据处理闭环。
本文探讨了将关节力矩信号融入视觉-语言-动作(VLA)模型的设计,以提升机器人在物理交互中的表现。研究表明,将即时和历史力矩信息编码为单一解码器token能取得最佳效果,结合动作和力矩的预测任务可进一步增强模型性能。实验验证了该方法在高接触和常规任务中的有效性与泛化能力。
多模态大型语言模型的预测能力尚未充分探索。研究引入新基准测试,评估其在抽象模式、人类活动和物理交互预测中的表现。实验揭示了模型的优缺点,并为未来开发提供标准化框架。
本研究论文探讨了给新一代具身代理建立基础世界模型的前景,并强调了整合因果考虑对于实现有意义的物理交互的重要性。最后,澄清了误解并展望了未来的研究。
RobotScript是一个用于生成机器人操作流程代码的平台,通过ROS与仿真和真实机器人实现统一接口。它展示了适应多种机器人实体的代码生成框架,并评估了不同模型在处理复杂物理交互任务中的推理能力差异。同时,还探索了每个模块对系统整体性能的影响。
完成下面两步后,将自动完成登录并继续当前操作。