小红花·文摘

本文提出了一种名为EXTRA的图像字幕生成方法，结合视觉和语言编码器，通过检索增强生成质量。同时，研究探讨了生成内容丰富（GCE）的新任务，利用深度学习模型探索语义关系，提升视觉内容生成的可信度。此外，研究发现社会属性影响生成内容的偏见，并提出LIBRA框架以减少性别偏见。