具有融入字幕的可自解释性可行动性学习
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该文章介绍了实体说明任务,结合视觉说明模型和导航能力,减少次优视角的视觉模糊。作者构建了包含10K个混乱物体的3D场景和注释段落的ET-Cap数据集,并提出了级联实体说明模型(CaBOT)。实验证明CaBOT优于其他基线模型。
🎯
关键要点
- 当前视觉说明模型假设图像完美捕捉场景,但真实场景中可能存在视角限制。
- 提出了“实体说明”新任务,结合视觉说明模型与导航能力,主动探索场景。
- 构建了包含10K个混乱物体的3D场景和注释段落的ET-Cap数据集。
- 提出了级联实体说明模型(CaBOT),由导航器和说明器组成。
- 实验证明CaBOT优于其他基线模型。
➡️