本研究通过多轮推理引导的视觉语言模型,解决了视觉注释者与盲人及低视力用户需求不匹配的问题。我们发布了包含5000个图示和137,000个样本的数据集Sightation,证明其在多种任务中的微调潜力。
该论文研究了自然语言推断数据的微调潜力,以提高信息检索和排名的效果,并通过使用来自波兰最大的电子商务网站和选定的开放领域数据,对英语和波兰语进行了验证。结果显示,使用对比损失和 NLI 数据进行微调可以提高模型在不同任务和语言方面的性能,并且有潜力改善单语和多语模型。最后,研究了嵌入向量的一致性和对齐性,以解释基于 NLI 的微调在域外应用中的效果。
完成下面两步后,将自动完成登录并继续当前操作。