自监督学习使得在无需手动标注数据集的情况下训练神经网络成为可能。通过定义基于数据的预训练任务,自动生成标签并训练编码器以获取表示,这些表示可用于下游任务。常见的预训练任务包括图像补全、旋转预测和对比学习。模型性能评估方法包括线性评估、聚类和可视化。掩码自编码器(MAE)通过掩盖输入的部分补丁进行训练以重建图像,而对比表示学习则通过正负样本的评分函数优化编码器。
本研究提出了一种自监督学习方法,针对手绘图像,通过特定的预处理任务和文本卷积网络的双分支架构,显著提升了手绘图像的特征表示能力。研究探讨了自监督学习框架及其在手写认证中的应用,提出了基于笔画部分遮罩的预训练任务,成功实现了作者识别等任务的最新成果。
本文研究了嵌入式检索模型的预训练任务对Transformer模型的影响,提出了多种高效的检索技术,显著提升了信息检索和图像检索的性能,并在基准测试中取得了优异成绩。
CommerceMM是一种多模态模型,具备多种理解商业主题的能力,并在多个任务上表现出色。它使用预训练的方式,在图像-文本对上完成了5个有效的预训练任务,并在9个新的跨模态和跨配对检索任务上提出了名为Omni-Retrieval的方法。该模型在细调后在7个与商业相关的下游任务中实现了最先进的性能。
研究团队提出了一种新的优化器Adam-mini,通过减少学习率的数量来降低内存使用,并在预训练任务中取得了优秀的性能。Adam-mini在内存占用和吞吐量方面优于AdamW,对超参数不敏感。在监督式微调和强化学习任务中,Adam-mini表现更好。
本文介绍了一种使用视觉变换器和自监督学习的方法,能够在多个下游任务上扩展到大规模数据集。通过比较不同自监督预训练任务的学习能力和应对崩溃的方法,提出了一个框架,将掩模图片建模和聚类作为预训练任务,能够在多类分类、多标签分类和语义分割等任务中表现更好。在完整规模的数据集上测试模型时,也展示了性能提升。
UC2是一种跨语言跨模态表示学习框架,通过机器翻译引入其他语言的图像标题,提出了两个新的预训练任务,实现了新的最先进状态。
该研究提出了一种基于笔画部分遮罩的预训练任务,用于从未标注的在线手写数据中提取信息丰富的表示。该方法适用于英语和汉语,并通过微调预训练模型实现了作者识别、性别分类和利手性分类等任务。该研究凸显了利用预训练模型的优点。
本文提出了GCL-GE指标来衡量图对比学习GCL的一般化能力,并设计了InfoAdv GCL框架,具有增强的一般化能力,在预训练任务适配和下游任务的一般化能力之间取得平衡,并在基准测试中表现出最先进的性能。
该论文介绍了使用预训练的语言模型LayoutLM提取商业文件信息的方法。通过引入新的预训练任务和后处理算法,模型可以更好地理解文档布局和数字值。实验结果表明,该方法显著提高了对支出收据、发票和采购订单的提取性能。
UC2是一个跨语言跨模态表示学习框架,通过引入其他语言的图像标题扩充数据集,提出两个新的预训练任务,实现了新的最先进状态。在多语言图像文本检索和多语言视觉问答基准上表现优异。
本文介绍了一种高效的视觉-语言基础模型EVE,通过统一的预训练任务,在共享的Transformer网络中编码了视觉和语言,并利用稀疏的Mixture-of-Experts模块捕捉模态特定信息。EVE通过遮蔽信号建模实现了图像像素和文本标记的信号重构,从而实现了快速训练和更好的下游性能。
CommerceMM是一种多模态模型,具备多种理解商业主题的能力,并可应用于多种任务。它使用预训练方式,在图像-文本对上完成了5个预训练任务,并提出了名为Omni-Retrieval的方法,用于9个新的跨模态和跨配对检索任务。结果显示,在7个商业相关的下游任务中,该模型在细调后实现了最先进的性能。
完成下面两步后,将自动完成登录并继续当前操作。