EVE: 基于掩码预测和模态感知的高效视觉 - 语言预训练
原文中文,约300字,阅读约需1分钟。发表于: 。本文介绍了一种高效的视觉 - 语言基础模型 EVE,该模型通过一个统一的预训练任务,在共享的 Transformer 网络中编码了视觉和语言,并利用专注于模态性的稀疏的 Mixture-of-Experts 模块来捕捉模态特定信息。通过对图像 - 文本对进行遮蔽信号建模,EVE 实现了图像像素和文本标记的信号重构,从而达到快速训练和更好的下游性能。
本文介绍了一种高效的视觉-语言基础模型EVE,通过统一的预训练任务,在共享的Transformer网络中编码了视觉和语言,并利用稀疏的Mixture-of-Experts模块捕捉模态特定信息。EVE通过遮蔽信号建模实现了图像像素和文本标记的信号重构,从而实现了快速训练和更好的下游性能。