该研究探讨了基于图片的对话(IGC),通过结合视觉和文本提高对话质量。提出了新的数据集和模型,展示了在图像与文本匹配和视觉问题回答等任务中的有效性,并在多个基准测试中取得了优异成绩。
完成下面两步后,将自动完成登录并继续当前操作。