本研究提出了图对齐大型语言模型(GALLM),解决了大型语言模型在处理图结构数据时自监督任务与监督任务之间的不对齐问题。通过引入与下游任务对齐的模板和新颖的文本匹配任务,显著提升了模型表现,为图基础模型的发展提供了新思路。
本文介绍了一种新的自监督任务,通过时间循环混淆提高物体检测器的鲁棒性。提出了循环机制和梯度校正模块以改善视频对象分割,并介绍了对比学习算法Cohere3D,旨在解决图像深度线索不足的问题,特别是在自动驾驶任务中的实例级对应。实验结果表明,这些方法在数据效率和性能上均有显著提升。
本文介绍了利用空中高光谱图像进行城市地表覆盖绘制的方法,讨论了标记数据稀缺问题和解决方案,发布了Toulouse Hyperspectral数据集,提出了自监督任务和基于自编码器和随机森林分类器的像素级分类基线,并取得了82%的总体准确性和74%的F1得分。
Kaleido-BERT是一种新型的视觉-语言预训练模型,通过对齐引导的遮盖策略和五项自监督任务进行VL预训练,实现了更好的图像-文本语义关系表示。在时装图像标注任务上展示了广泛潜力。
完成下面两步后,将自动完成登录并继续当前操作。