我们推出了Draw-and-Understand项目中的SPHINX-V,这是一种结合视觉编码器和语言理解的多模态大模型。项目还包括MDVP-Data和MDVP-Bench,用于研究视觉提示。实验表明,SPHINX-V在多模交互、像素级描述和问答能力上有显著提升。
完成下面两步后,将自动完成登录并继续当前操作。