本文提出了一种名为EXTRA的图像字幕生成方法,结合视觉和语言编码器,通过检索增强生成质量。同时,研究探讨了生成内容丰富(GCE)的新任务,利用深度学习模型探索语义关系,提升视觉内容生成的可信度。此外,研究发现社会属性影响生成内容的偏见,并提出LIBRA框架以减少性别偏见。
完成下面两步后,将自动完成登录并继续当前操作。