LOVON——面向足式Open-Vocabulary的物体导航:LLM做任务分解、YOLO11做目标检测,最后L2MM将指令和视觉映射为动作(且解决动态模糊)
💡
原文中文,约3900字,阅读约需10分钟。
📝
内容提要
LOVON系统结合大语言模型与开放词汇视觉感知,旨在提升足式机器人在复杂环境中的长时任务执行能力。通过拉普拉斯方差滤波技术,LOVON解决了视觉不稳定性,实现了动态目标下的自主导航与任务规划。
🎯
关键要点
- LOVON系统结合大语言模型与开放词汇视觉感知,提升足式机器人在复杂环境中的长时任务执行能力。
- 拉普拉斯方差滤波技术解决了视觉不稳定性,实现动态目标下的自主导航与任务规划。
- 足式机器人在复杂地形中展现出卓越的机动性,但缺乏对复杂长时任务的全面考量。
- LOVON集成了任务规划能力、视觉检测感知能力和语言到运动模型,解决了现实世界中的挑战。
- 通过将基于LLM的规划与开放词汇感知和腿式机器人移动能力集成,LOVON解决了以往方法的局限性。
- 开放词汇视觉感知的进展提升了动态环境下的目标检测准确性,但仍面临实时性能和鲁棒性挑战。
- LOVON通过开发预处理技术减轻运动模糊,确保视觉输入一致性,实现端到端执行。
- 任务要求机器人在开放世界环境中执行长周期任务,需自主搜索并识别不同子目标。
- LOVON的双系统模型包括高层策略和低层策略,确保在现实世界应用中的多样性和通用性。
- LOVON的流程包括任务指令生成、目标对象识别和运动控制向量生成。
- 多模态输入处理结合视觉输入和长时序任务管理,提升任务执行能力。
- 基于拉普拉斯方差的运动模糊滤波提高了视觉-语言处理流程的鲁棒性。
- 语言到动作模型L2MM负责预测动作和提供反馈,采用编码器-解码器架构设计。
➡️