大规模合成数据的三维视觉和语言预训练
原文中文,约500字,阅读约需1分钟。发表于: 。3D 视觉语言预训练(3D-VLP)旨在提供一个可以将 3D 场景与自然语言联系起来的预训练模型,这是一种重要的体验式智能技术。通过构建 SynVL3D,我们克服了有限的场景多样性和不足的细粒度注释的障碍,在室内场景中创建了一个包含 10K 个场景和 1M 个描述的全面的合成场景文本语料库,具有多样的场景数据、丰富的文本描述、多粒度的 3D - 文本关联以及低采集成本。利用 SynVL3D...
3D视觉语言预训练(3D-VLP)通过SynVL3D构建了一个简单而统一的Transformer,用于对齐3D和语言,并解决领域转移问题。在视觉定位、密集字幕和问答等下游任务中取得了最新成果。