BriefGPT - AI 论文速递 ·

一张地图找到所有物体：实时开放词汇映射用于零样本多物体导航

💡 原文中文，约600字，阅读约需2分钟。

📝

内容提要

本文介绍了一种零样本导航方法，即视觉语言前沿地图（VLFM），通过深度观测和预训练的视觉语言模型，在陌生环境中驶向未见过的语义对象。VLFM在多个数据集上实现了最先进的结果，并在现实世界的机器人上展示了高效导航的能力。

🎯

本文介绍了一种零样本导航方法，称为视觉语言前沿地图（VLFM）。
VLFM受人类推理启发，旨在在新环境中导航至未见过的语义对象。
VLFM通过深度观测建立占用地图，识别前沿，并利用RGB观测和预训练的视觉语言模型生成基于语言的价值地图。
在Gibson、Habitat-Matterport 3D（HM3D）和Matterport 3D（MP3D）数据集上，VLFM在对象目标导航任务的成功路径长度（SPL）方面实现了最先进的结果。
VLFM的零样本特性使其能够轻松部署在现实世界的机器人上，如波士顿动力公司的Spot移动操作平台。
在现实世界的办公楼中，VLFM展示了高效导航到目标对象的能力，无需任何对环境的先验知识。
VLFM的成就凸显了视觉语言模型在推进语义导航领域的巨大潜力。

🏷️

突破零样本TTS音色克隆上限：LongCat-AudioDiT 的声音克隆艺术
音频生成技术正向端到端生成演进。美团LongCat团队推出LongCat-AudioDiT，直接在波形潜空间进行文本转语音，避免信息损失。该模型在Seed...
Flipboard刚刚推出了Surf，这款新的社交应用和信息聚合器
Surf is a slightly hard app to explain. It's sort of three things: a clie...
“及时”世界建模支持人类规划与推理
An overview of a state-of-the-art study, uncovering simulation-based reasonin...
Gemma 4：逐字节，最强大的开源模型
Gemma 4: our most intelligent open models to date, purpose-built for advanced...
在Google Vids中免费创建、编辑和分享视频
谷歌推出Vids视频编辑工具，用户可免费生成高质量视频和定制音乐。新功能包括AI头像和浏览器录屏扩展，简化视频创作与分享。个人账户每月可生成10个视频，G...
TeamPCP攻击是一个警告：您的CI/CD管道是新的前线
丹·洛伦斯是Chainguard的联合创始人兼首席执行官，自2015年以来专注于容器技术，参与了Minikube、Skaffold和Kaniko等项目的开发。