小红花·文摘

本文介绍了多种基于视觉和语言模型的图像字幕生成方法，如ICECAP、Cap4Video和ViECap，旨在提高字幕生成的准确性和一致性。这些方法在多个标准数据集上表现优异，尤其在零样本学习和跨域应用中取得了先进水平。