本研究提出EgoDTM模型,解决自我中心视频语言预训练中缺乏三维理解的问题。该模型结合大规模3D视频预训练与视频-文本对比学习,通过轻量级三维解码器高效学习三维感知。实验结果表明,EgoDTM在多项任务中表现优异,展现出卓越的3D视觉理解能力。
本文介绍了一种新的自监督表征学习方法,通过结合有区分度的自监督特征和三维理解,以及弱几何球面先验,来提取具有挑战性的图像特征。该方法在训练过程中注入了信息丰富的几何先验,能够更好地考虑重复部分和对称性误差。实验结果表明,该方法在区分对称视图和重复部分方面表现出色,并且能够推广到未见类别的数据集上。
完成下面两步后,将自动完成登录并继续当前操作。