Building a Diagram Description Dataset Friendly to Blind and Low Vision Users Using Sighted User Feedback

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究通过多轮推理引导的视觉语言模型,解决了视觉注释者与盲人及低视力用户需求不匹配的问题。我们发布了包含5000个图示和137,000个样本的数据集Sightation,证明其在多种任务中的微调潜力。

🎯

关键要点

  • 本研究解决了视觉注释者与盲人及低视力用户需求不匹配的问题。
  • 提出通过多轮推理引导的视觉语言模型生成图示描述。
  • 有视力的用户进行评估而非创作,这种评估方法对盲人教师非常有效。
  • 发布了包含5000个图示和137,000个样本的数据集Sightation。
  • 展示了Sightation在多种下游任务中的微调潜力。
➡️

继续阅读