小红花·文摘

本文探讨自由和开放的视觉问答（VQA）任务，研究基于深度学习的模型表现及其缺陷，提出新模型和数据集以提升盲人用户的视觉问题解决能力，关注视觉与语言的互动及模型的可解释性，推动未来发展方向。

盲人和低视力者的视觉问题长形式回答

BriefGPT - AI 论文速递 ·

想象一下：开源AI在图像描述中的应用

The Fly Blog ·

大型多模态模型 (LMMs) 在为盲人或低视力用户提供自动视觉辅助方面具有潜力。通过实证评估 CLIP，在零样本分类任务中测试了 25 个 CLIP 变体，发现其在盲人用户捕获的图像上的准确性平均低了 15 个百分点。使用仅有 5 张图像进行少样本学习可以在某些情况下缓解 BLV 用户的 CLIP 的服务质量差异。

解释 CLIP 在盲 / 低视能用户数据上的表现差异

BriefGPT - AI 论文速递 ·