细节不落下：重新审视细粒度图像描述中的自我检索

本研究解决了图像描述系统无法生成细粒度描述的问题，特别是在数据噪声和通用性方面的局限。我们提出了一种新的框架“视觉描述提升”，结合优化的最大似然估计初始化和改进的自我检索训练课程，使得描述更加细致且忠实于真实标注。研究表明，该方法在细粒度描述生成方面显著优于现有技术。

本研究提出了VisualGPT，一种数据高效的图像字幕模型，通过利用预先训练的语言模型中的语言知识，在少量领域训练数据上快速适应预训练的语言模型，并通过稀疏激活单元减少了零梯度的影响。在MSCOCO和Conceptual Captions数据集上进行训练，结果表明在MS COCO上的CIDEr得分最好的基线模型高达10.8％，在Conceptual Captions上高达5.4％，并在医学报告生成数据集IU X-ray上取得了最新的结果。