BriefGPT - AI 论文速递 ·

从描述丰富性到偏见：揭示生成图像标题丰富化的黑暗面

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

本文提出了一种名为EXTRA的图像字幕生成方法，结合视觉和语言编码器，通过检索增强生成质量。同时，研究探讨了生成内容丰富（GCE）的新任务，利用深度学习模型探索语义关系，提升视觉内容生成的可信度。此外，研究发现社会属性影响生成内容的偏见，并提出LIBRA框架以减少性别偏见。

🎯

❓

EXTRA方法结合视觉和语言编码器，通过检索增强生成质量，能够提高字幕生成的准确性。

GCE任务旨在显式地对视觉和文本域进行内容丰富，使生成的内容在视觉上真实、结构上合理、语义上丰富。

LIBRA框架通过学习合成有偏差的样本，降低图像字幕模型中的性别偏见，特别是利用上下文预测性别的偏见。

通过构建语义图，节点表示对象，边表示对象间的关系，结合图卷积网络进行关系预测。

社会属性如种族、性别和外貌特征显著影响生成文本的毒性和能力相关词汇，导致有害刻板印象的生成。

实验结果表明，检索足够数量的字幕可以显著提高字幕生成的质量，显示出有希望的视觉可信度。

🏷️