该论文提出了一种利用大规模视觉和语言模型生成字幕的方法,通过使用多个关键模型来桥接视频和文本,并使用可学习的令牌来传递信息。实验结果显示,该方法在多个数据集上取得了较现有方法更好的评价指标。
该论文提出了一种利用大规模视觉和语言模型生成字幕的方法。
该方法通过多个关键模型桥接视频和文本。
使用可学习的令牌来传递信息。
实验结果显示,该方法在多个数据集上取得了4%至20%的CIDEr评价指标的改进。
完成下面两步后,将自动完成登录并继续当前操作。