DeepSpeed-VisualChat:多轮多图像交互聊天通过多模态因果关注
原文中文,约300字,阅读约需1分钟。发表于: 。为了解决现有多模态模型在多图像、多轮对话中处理交叉图像和文本输入的能力不足的问题,我们提出了 DeepSpeed-VisualChat 框架,以优化大型语言模型的性能,并提升大型视觉和语言模型处理交叉输入的能力。相比现有框架,DeepSpeed-VisualChat 在多模态语言模型方面具有较高的可伸缩性,并为未来的探索奠定了坚实的基础。
该文介绍了一种名为MMICL的模型,用于解决图像与文本交叉多模态提示的问题。该模型能够适应用户真实应用中复杂的提示,在广泛的视觉-语言任务中取得了新的最先进的零样本和少样本性能。