在 3D 环境中探索与描述:基于身体感知的视觉字幕生成
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
当前的视觉说明模型假设图像是完整呈现场景的完美捕捉,但在真实世界中,图像可能没有提供良好的视角,限制了对细粒度场景的理解。为了克服这一限制,提出了一项名为“实体说明”的新任务,将视觉说明模型与导航能力相结合,主动探索场景并减少视觉模糊。构建了一个包含10K个混乱物体的3D场景和每个场景三个注释段落的ET-Cap数据集,用于支持该任务。提出了一个级联实体说明模型(CaBOT),由导航器和说明器组成,用于处理这个任务。广泛的实验证明该模型优于其他基线模型。数据集、代码和模型可在链接中获得。
🎯
关键要点
-
当前的视觉说明模型假设图像是完整呈现场景的完美捕捉。
-
在真实世界中,图像可能没有提供良好的视角,限制了对细粒度场景的理解。
-
提出了一项名为“实体说明”的新任务,将视觉说明模型与导航能力相结合。
-
该任务使模型能够主动探索场景,减少视觉模糊。
-
构建了一个包含10K个混乱物体的3D场景和每个场景三个注释段落的ET-Cap数据集。
-
提出了一个级联实体说明模型(CaBOT),由导航器和说明器组成。
-
广泛的实验证明该模型优于其他基线模型。
-
数据集、代码和模型可在链接中获得。
➡️