小红花·文摘

本研究提出了多轮多模态澄清问题（MMCQ）任务，旨在改善传统文本澄清方法的不足。通过构建包含13,000个多轮互动的数据集ClariMM，并引入结合文本与视觉信息的检索框架Mario，实验证明该方法在多轮澄清中提高了12.88%的MRR，尤其在长对话中效果显著。