解释 CLIP 在盲 / 低视能用户数据上的表现差异

💡 原文中文,约500字,阅读约需1分钟。
📝

内容提要

大型多模态模型 (LMMs) 在为盲人或低视力用户提供自动视觉辅助方面具有潜力。通过实证评估 CLIP,在零样本分类任务中测试了 25 个 CLIP 变体,发现其在盲人用户捕获的图像上的准确性平均低了 15 个百分点。使用仅有 5 张图像进行少样本学习可以在某些情况下缓解 BLV 用户的 CLIP 的服务质量差异。

🎯

关键要点

  • 大型多模态模型 (LMMs) 在为盲人或低视力用户提供自动视觉辅助方面具有潜力。

  • 通过实证评估 CLIP,测试了 25 个 CLIP 变体,发现其在盲人用户捕获的图像上的准确性平均低了 15 个百分点。

  • CLIP 对图像内容、图像质量和文本内容的敏感性不足是导致准确性下降的原因。

  • 对三个常见的预训练数据集进行文本分析发现,残疾内容很少被提及。

  • 性能差异扩展到由 CLIP 支持的三个下游模型:OWL-ViT, CLIPSeg 和 DALL-E2。

  • 使用仅有 5 张图像进行少样本学习可以在某些情况下缓解 BLV 用户的 CLIP 的服务质量差异。

  • 讨论了一系列可能的缓解措施。

➡️

继续阅读