小红花·文摘

3D-VLP是一种将3D场景与自然语言联系起来的预训练模型，通过构建SynVL3D克服了场景多样性和细粒度注释不足的障碍，创建了一个包含10K个场景和1M个描述的合成场景文本语料库。利用SynVL3D的注释，预训练了一个Transformer模型，并提出了自适应方法解决领域转移问题。在视觉定位、密集字幕和问答等任务中取得了最新成果。

VRDSynth：多语言语义富文本提取程序合成

BriefGPT - AI 论文速递 ·

3D视觉语言预训练（3D-VLP）通过SynVL3D构建了一个简单而统一的Transformer，用于对齐3D和语言，并解决领域转移问题。在视觉定位、密集字幕和问答等下游任务中取得了最新成果。

大规模合成数据的三维视觉和语言预训练

BriefGPT - AI 论文速递 ·