细节不落下:重新审视细粒度图像描述中的自我检索

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究提出了VisualGPT,一种数据高效的图像字幕模型,通过利用预先训练的语言模型中的语言知识,在少量领域训练数据上快速适应预训练的语言模型,并通过稀疏激活单元减少了零梯度的影响。在MSCOCO和Conceptual Captions数据集上进行训练,结果表明在MS COCO上的CIDEr得分最好的基线模型高达10.8%,在Conceptual Captions上高达5.4%,并在医学报告生成数据集IU X-ray上取得了最新的结果。

🎯

关键要点

  • 本研究提出了VisualGPT,一种数据高效的图像字幕模型。

  • VisualGPT利用预先训练的语言模型中的语言知识。

  • 模型使用自重生编码器-解码器注意机制,能够在少量领域训练数据上快速适应。

  • 通过稀疏激活单元减少了零梯度的影响。

  • 在MSCOCO和Conceptual Captions数据集上进行训练,训练比例为0.1%,0.5%和1%。

  • 在MS COCO上,CIDEr得分最好的基线模型高达10.8%。

  • 在Conceptual Captions上,CIDEr得分高达5.4%。

  • 在医学报告生成数据集IU X-ray上取得了最新的结果。

➡️

继续阅读