小红花·文摘

本文介绍了一种零样本学习的图像字幕生成方法，通过解耦对象描述与语言模型，在未知领域有效生成字幕。研究表明，该方法在新颖对象字幕任务中表现良好，并提出了多种改进技术，如引入辅助输入、无参数关注模块和轻量级解码器，显著提升了生成性能。