结构之法算法之道 ·

LOVON——面向足式Open-Vocabulary的物体导航：LLM做任务分解、YOLO11做目标检测，最后L2MM将指令和视觉映射为动作(且解决动态模糊)

💡 原文中文，约3900字，阅读约需10分钟。

📝

内容提要

LOVON系统结合大语言模型与开放词汇视觉感知，旨在提升足式机器人在复杂环境中的长时任务执行能力。通过拉普拉斯方差滤波技术，LOVON解决了视觉不稳定性，实现了动态目标下的自主导航与任务规划。

🎯

关键要点

LOVON系统结合大语言模型与开放词汇视觉感知，提升足式机器人在复杂环境中的长时任务执行能力。
拉普拉斯方差滤波技术解决了视觉不稳定性，实现动态目标下的自主导航与任务规划。
足式机器人在复杂地形中展现出卓越的机动性，但缺乏对复杂长时任务的全面考量。
LOVON集成了任务规划能力、视觉检测感知能力和语言到运动模型，解决了现实世界中的挑战。
通过将基于LLM的规划与开放词汇感知和腿式机器人移动能力集成，LOVON解决了以往方法的局限性。
开放词汇视觉感知的进展提升了动态环境下的目标检测准确性，但仍面临实时性能和鲁棒性挑战。
LOVON通过开发预处理技术减轻运动模糊，确保视觉输入一致性，实现端到端执行。
任务要求机器人在开放世界环境中执行长周期任务，需自主搜索并识别不同子目标。
LOVON的双系统模型包括高层策略和低层策略，确保在现实世界应用中的多样性和通用性。
LOVON的流程包括任务指令生成、目标对象识别和运动控制向量生成。
多模态输入处理结合视觉输入和长时序任务管理，提升任务执行能力。
基于拉普拉斯方差的运动模糊滤波提高了视觉-语言处理流程的鲁棒性。
语言到动作模型L2MM负责预测动作和提供反馈，采用编码器-解码器架构设计。

🏷️

继续阅读

本周PSC动态（217）| 2026年3月9日
我们召开了简短会议，讨论潜在新核心团队成员的进展，决定在所有人回复后投票。发现PSC过渡中遗漏了一个小步骤，决定制定检查清单。会议时间有限，未讨论太多问题...
这款坚固手机的一台相机是可弹出的动作摄像头
RugOne Xsnap 7 Pro原型在MWC 2026展示，尚未公布价格和上市日期。配置包括MediaTek Dimensity 8400 5G芯片、...
上下文衰退如何影响企业AI和大型语言模型（LLM）的结果，以及如何解决这一问题
上下文衰退影响企业AI和大型语言模型（LLM）的表现。旧数据未被清除，导致信息混乱和推理能力下降。企业需监控关键数据指标，清除过时数据，以提升AI的准确性和效率。
Cursor构建始终在线的代理以应对开发者任务的繁琐
Cursor团队的安全审查自动化在每次推送到主分支时触发，能有效发现问题，避免阻塞PR，并将高风险发现发送到Slack，已发现多个漏洞和关键错误。
基于华为云码道，快速开发个人任务管理系统
华为云码道（CodeArts）提供智能开发工具，帮助用户快速构建个人任务管理系统。该系统简洁高效，支持任务管理、筛选和本地数据保存，用户可通过指令生成代码...
【vLLM 学习】视觉语言
本文介绍了如何使用vLLM进行离线推理，特别是在视觉语言模型中采用正确的提示格式进行文本生成。示例展示了多种模型的提示格式和参数设置，以确保在不同GPU上有效运行。

LOVON——面向足式Open-Vocabulary的物体导航：LLM做任务分解、YOLO11做目标检测，最后L2MM将指令和视觉映射为动作(且解决动态模糊)

内容提要

关键要点

标签

继续阅读