EVE: 基于掩码预测和模态感知的高效视觉 - 语言预训练
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了一种高效的视觉-语言基础模型EVE,通过统一的预训练任务,在共享的Transformer网络中编码了视觉和语言,并利用稀疏的Mixture-of-Experts模块捕捉模态特定信息。EVE通过遮蔽信号建模实现了图像像素和文本标记的信号重构,从而实现了快速训练和更好的下游性能。
🎯
关键要点
- 介绍了一种高效的视觉-语言基础模型EVE。
- EVE通过统一的预训练任务编码视觉和语言。
- 使用共享的Transformer网络。
- 利用稀疏的Mixture-of-Experts模块捕捉模态特定信息。
- 通过遮蔽信号建模实现图像像素和文本标记的信号重构。
- EVE实现了快速训练和更好的下游性能。
➡️