可控的语境图像标题生成:通过用户定义的亮点指引视觉叙事
原文中文,约200字,阅读约需1分钟。发表于: 。Ctrl-CIC 引入了可控的上下文图像描述(Controllable Contextualized Image Captioning)的新领域,通过 P-Ctrl 和 R-Ctrl 方法实现了对图像描述的集中控制,扩展了用户自适应图像描述的新方向。
该研究提出了结构化语义增强(SSA)框架,通过增加图像-语言数据集的多样性,改进了图像描述生成模型的性能。同时,开发了一种特定于CIC任务的模型CIC-BART-SSA,利用SSA多样化数据集生成多样且高质量的图像描述,具有竞争力和优越性能。