MMCR: Advancing Contextual Reasoning in Multimodal Multi-Turn Visual Language Models
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一个包含310K多图像多轮对话的数据集MMCR,解决了视觉语言模型在多轮对话中的数据不足问题。微调后的模型在上下文准确性上提高了5.2%,显著增强了多模态交互效果。
🎯
关键要点
- 本研究提出了一个包含310K多图像多轮对话的数据集MMCR。
- 该数据集解决了视觉语言模型在多轮对话中的数据不足问题。
- 微调后的模型在上下文准确性上提高了5.2%。
- 研究显著增强了多模态交互效果。
➡️