结构之法算法之道 ·

LOVON——面向足式Open-Vocabulary的物体导航：LLM做任务分解、YOLO11做目标检测，最后L2MM将指令和视觉映射为动作(且解决动态模糊)

💡 原文中文，约3900字，阅读约需10分钟。

📝

内容提要

LOVON系统结合大语言模型与开放词汇视觉感知，旨在提升足式机器人在复杂环境中的长时任务执行能力。通过拉普拉斯方差滤波技术，LOVON解决了视觉不稳定性，实现了动态目标下的自主导航与任务规划。

🎯

❓

LOVON系统结合大语言模型与开放词汇视觉感知，提升足式机器人在复杂环境中的长时任务执行能力。

LOVON采用拉普拉斯方差滤波技术，减缓机器人移动过程中出现的视觉不稳定性，确保目标检测的准确性和连续性。

足式机器人在长时任务中缺乏对复杂任务的全面考量，且在动态环境下的目标检测准确性和实时性能面临挑战。

LOVON的流程包括任务指令生成、目标对象识别和运动控制向量生成，结合了大语言模型和视觉输入处理。

L2MM是LOVON中的一个模块，负责将任务指令和视觉反馈映射为机器人的控制向量，采用编码器-解码器架构设计。

LOVON通过开放词汇视觉感知的进展，结合实时性能和鲁棒性，提升了动态环境下的目标检测准确性。

🏷️

Codex终于支持移动端开发者可在ChatGPT中控制Codex for macOS执行任务或审批
OpenAI 将 Codex 集成到 ChatGPT 移动端，开发者可通过手机远程控制 Codex，查看任务进度和审批权限。此功能支持多种设备连接，确保安...
BMC TV借助Open Broadcast Systems的5G Flyaway，在比特率竞赛中脱颖而出
Open Broadcast Systems 公司宣布，BMC TV 部署了其 5G Flyaway 解决方案，以支持赛马直播。该方案通过蜂窝网络提供高质...
使用MySQL HeatWave GenAI构建AI视觉搜索引擎
现代人工智能系统越来越依赖多模态数据，尤其是图像理解。MySQL HeatWave GenAI使得在SQL工作流中直接实现图像理解成为可能，通过生成文本描...
从延迟到即时：现代化GitHub Issues导航性能
GitHub利用eBPF技术检测和防止部署工具中的循环依赖，从而提高部署安全性，并通过简化流程和使用编码代理来提升性能和工作效率。
Presentation: Accelerating LLM-Driven Developer Productivity at Zoox
Amit Navindgi discusses the systematic shift at Zoox from fragmented document...
精确率达94%，西班牙团队基于YOLO11实现自动化近地天体与卫星条纹检测，连续帧之间稳定识别
近地天体探测对理解太阳系及行星防御至关重要。研究人员开发的StreakMind系统利用深度学习自动识别天文图像中的卫星拖影，精确率达94%、召回率97%。...