小红花·文摘

我们推出了Draw-and-Understand项目中的SPHINX-V，这是一种结合视觉编码器和语言理解的多模态大模型。项目还包括MDVP-Data和MDVP-Bench，用于研究视觉提示。实验表明，SPHINX-V在多模交互、像素级描述和问答能力上有显著提升。