Building a Diagram Description Dataset Friendly to Blind and Low Vision Users Using Sighted User Feedback
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究通过多轮推理引导的视觉语言模型,解决了视觉注释者与盲人及低视力用户需求不匹配的问题。我们发布了包含5000个图示和137,000个样本的数据集Sightation,证明其在多种任务中的微调潜力。
🎯
关键要点
- 本研究解决了视觉注释者与盲人及低视力用户需求不匹配的问题。
- 提出通过多轮推理引导的视觉语言模型生成图示描述。
- 有视力的用户进行评估而非创作,这种评估方法对盲人教师非常有效。
- 发布了包含5000个图示和137,000个样本的数据集Sightation。
- 展示了Sightation在多种下游任务中的微调潜力。
➡️