小红花·文摘

本文研究了结合开放域对话代理和视觉模型的多模态对话目标，探讨了图像融合方案和域自适应预训练和微调策略。研究表明，最好的模型在多模态对话和纯文本对话方面都表现优秀。同时，还整合了安全组件，不会影响模型性能。