小红花·文摘

3D视觉语言预训练（3D-VLP）通过SynVL3D构建了一个简单而统一的Transformer，用于对齐3D和语言，并解决领域转移问题。在视觉定位、密集字幕和问答等下游任务中取得了最新成果。