本研究通过多轮推理引导的视觉语言模型,解决了视觉注释者与盲人及低视力用户需求不匹配的问题。我们发布了包含5000个图示和137,000个样本的数据集Sightation,证明其在多种任务中的微调潜力。
完成下面两步后,将自动完成登录并继续当前操作。