基于 GPT 压缩的近似人类化少样本学习
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究提出了VisualGPT,一种数据高效的图像字幕模型,利用预训练的语言模型中的语言知识,在少量领域训练数据上快速适应预训练的语言模型。通过稀疏激活单元减少了零梯度的影响。在MSCOCO和Conceptual Captions数据集上训练,结果表明,在MS COCO上的CIDEr得分最高达10.8%,在Conceptual Captions上达到5.4%,并在医学报告生成数据集IU X-ray上取得了最新的结果。
🎯
关键要点
- 本研究提出了VisualGPT,一种数据高效的图像字幕模型。
- VisualGPT利用预训练的语言模型中的语言知识。
- 该模型使用自重生编码器-解码器注意机制,能够在少量领域训练数据上快速适应。
- 通过稀疏激活单元减少了零梯度的影响。
- 在MSCOCO和Conceptual Captions数据集上进行0.1%、0.5%和1%的训练。
- 在MS COCO上,CIDEr得分最高达10.8%。
- 在Conceptual Captions上,CIDEr得分最高达5.4%。
- 在医学报告生成数据集IU X-ray上取得了最新的结果。
➡️