Lexicon3D:探讨视觉基础模型在复杂3D场景理解中的应用
本研究通过引入场景语料库和视觉语言对,展示了Grounded Pre-training for Scenes (GPS)在3D视觉语言学习中的有效性,并在3D视觉定位基准和零样本迁移实验中取得了最先进的性能。
原文中文,约300字,阅读约需1分钟。
本研究通过引入场景语料库和视觉语言对,展示了Grounded Pre-training for Scenes (GPS)在3D视觉语言学习中的有效性,并在3D视觉定位基准和零样本迁移实验中取得了最先进的性能。