小红花·文摘

本文介绍了一种创建多模态对话数据集的方法，强调文本与图像结合的重要性。研究表明，上下文感知的理解方式可以提升对话质量。此外，提出了个性化展示和基于图片的对话任务，展示了多模态系统在推荐和解释生成中的潜力。