多任务领域自适应与三维物体的语言 grounding
原文中文,约500字,阅读约需1分钟。发表于: 。利用培训有源代码的现成模型来捕捉特征,如视角选择或几何先验,改善性能是现有关于三维物体目标级语言基础的工作的主要关注点之一。然而,它们没有考虑到在跨领域中探索语言 - 视觉对齐的跨模态表示。为了解决这个问题,我们提出了一种名为三维对象领域适应的语言基础(DA4LG)的新方法。具体而言,DA4LG 由具有多任务学习的视觉适配器模块组成,通过全面的多模态特征表示实现视觉 -...
本文介绍了一种名为三维对象领域适应的语言基础(DA4LG)的新方法,通过视觉适配器模块实现视觉-语言对齐。实验结果表明,DA4LG 在视觉和非视觉语言描述方面具有竞争力的性能,并在语言基础基准 SNARE 中达到了最先进的性能。