负债正向:统一的双路径适配器用于视觉 - 语言模型
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本论文提出了名为DU-VLG的框架,通过双向生成视觉和语言,提高图像生成质量,并在视觉和语言生成任务中获得了比以前的最先进系统更高的得分。
🎯
关键要点
- 提出了名为DU-VLG的框架,将视觉和语言生成视为序列生成问题。
- 通过双向生成,利用对图像和文本的成对处理来提高生成质量。
- 采用多模态降噪自编码器任务和模态翻译任务进行双重预训练。
- 设计了一种新的承诺损失方法,以提高图像生成的质量。
- DU-VLG在图像字幕和文本到图像生成数据集上的性能优于单向生成目标或不使用承诺损失的变体。
- 在三个视觉和语言生成任务中,DU-VLG获得了比以前的最先进系统更高的得分。
- 人类评测员确认模型生成了真实相关的图像,并带有忠实和有信息的说明。
➡️