本文提出CM3AE预训练框架,旨在解决事件数据与RGB帧之间的联系不足问题。通过多模态融合重建模块和对比学习策略,增强了跨模态理解能力。实验结果表明,该方法在多项任务中表现优异。
本研究提出了一种新的时间事件预训练框架,解决了3D医学成像模型在捕捉疾病相关生物标志物时缺乏时间上下文的问题。通过利用纵向电子健康记录进行大规模时间监督,显著提升了8个基准任务的预测性能。
本研究提出了课程掩蔽(CurrMask)预训练框架,旨在解决离线强化学习中技能学习的复杂度平衡问题,通过动态调整掩蔽方案,提升不同复杂度技能的学习效果。
本文介绍了DiffCLIP,一种新的预训练框架,结合稳定扩散和ControlNet,减小视觉分支中的域间差异,并引入样式提示生成模块,用于少样本任务。实验结果显示DiffCLIP在ModelNet10、ModelNet40和ScanObjectNN数据集上具有强大的3D理解能力。在ScanObjectNN的OBJ_BG数据集上,DiffCLIP实现了43.2%的零样本分类精度,是最先进的技术水平;在ModelNet10上实现了80.6%的零样本分类精度,与最先进的技术水平相当。
VaLM是一种预训练框架,通过视觉增强语言建模,提高多模态语言建模的性能。VaLM在常识推理任务中表现优秀,特别是在颜色、大小和形状方面。
提出了一种新颖的预训练框架,构建了适用于图像质量评估的通用表示。方法在多个数据集上取得了最先进的性能,并展现了显著的泛化能力。
VaLM是一种预训练框架,通过视觉增强语言建模提高多模态语言建模性能。VaLM在常识推理任务中表现出色,优于强语言和视觉语言基线。
VaLM是一种预训练框架,通过视觉增强语言建模,提高多模态语言建模的性能。VaLM在常识推理任务中表现出色,优于强语言和视觉语言基线。
本研究介绍了一种新的基于图形的分子数据自我监督学习方法MGSSL,通过自生成基元的预训练框架,捕获分子图中的丰富信息,并在下游基准任务中表现优于最先进的基线。
利用多模态信息的视觉语言预训练(VLP)在自然领域的视觉识别和胸部 X 射线(CXR)的医学影像诊断方面取得了重大成功。UniChest是一个征服与分割的预训练框架,旨在充分利用多个源 CXRs 的协作优势,同时减少源异质性的负面影响。
VaLM是一种预训练框架,使用视觉增强语言建模,结合图像检索模块和视觉知识融合层,可以参考文本和图像的视觉知识进行多模态语言建模。在常识推理任务中表现出色,颜色、大小和形状方面的性能优于强语言和视觉语言基线。
本文介绍了一种新的预训练框架DiffCLIP,用于减小视觉分支中的域间差异,并引入样式提示生成模块,用于少样本任务。在多个数据集上进行实验,表明DiffCLIP具有强大的3D理解能力,特别是在零样本分类方面表现出色。
该研究提出了一种名为MGSSL的基于图形的自我监督学习方法,用于分子数据。他们使用自生成基元的预训练框架来捕获分子图中的信息,并在不同的下游基准任务上进行了广泛实验,表明该方法优于所有最先进的基线。
VaLM是一种预训练框架,使用视觉增强语言建模,通过图像检索模块检索相应图像,并使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识。VaLM在常识推理任务中表现出色,包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。
该研究提出了一种名为MGSSL的基于图形的分子数据自我监督学习方法,使用自生成基元的预训练框架来捕获分子图信息,并在不同的下游基准任务上进行了广泛实验,表明其优于所有最先进的基线。
VaLM是一种预训练框架,使用视觉增强语言建模,结合图像检索模块和视觉知识融合层,可以参考文本和图像的视觉知识。在常识推理任务中表现出色,颜色、大小和形状方面的性能优于强语言和视觉语言基线。
DFormer是一种创新的RGB-D预训练框架,使用一系列RGB-D块进行编码,避免了现有方法中RGB预训练的主干网络对深度图中的三维几何关系进行不匹配的编码问题。使用轻量级的解码器头微调预训练的DFormer,在两个RGB-D分割数据集和五个RGB-D显着性数据集上实现了最新的最佳性能,代价为当前最佳方法的一半。
本文介绍了一种名为PANDA的预训练框架,用于解决预训练视觉语言模型在视觉和语言导航任务中的领域差异和交叉模态对齐的问题。通过对比学习,PANDA在R2R和REVERIE任务上取得了优于之前方法的结果。
VaLM是一种预训练框架,使用图像检索模块和视觉知识融合层进行多模态语言建模。通过常识推理任务评估,显示VaLM在颜色、大小和形状方面的性能优于强语言和视觉语言基线。
完成下面两步后,将自动完成登录并继续当前操作。