本文研究了结合开放域对话代理和视觉模型的多模态对话目标,探讨了图像融合方案和域自适应预训练和微调策略。研究表明,最好的模型在多模态对话和纯文本对话方面都表现优秀。同时,还整合了安全组件,不会影响模型性能。
完成下面两步后,将自动完成登录并继续当前操作。