本研究提出了BI-MDRG方法,解决了多模态对话响应生成任务中的信息遗漏问题,并通过利用图像历史信息提高了文本响应与图像内容的相关性和图像响应中对象的一致性。研究结果显示BI-MDRG显著提升了多模态对话的质量,并创建了一个300个对话的标注数据集以评估图像一致性。
完成下面两步后,将自动完成登录并继续当前操作。