本文讨论了视觉语言模型(VLMs)在视觉测试中的表现,发现其在判断线条交点、识别被红圈圈出的字母、计算图形重叠等任务中表现不佳。文章指出VLMs的视觉能力可能与推理能力和对图像内容的理解方式有关,并建议对其视觉理解和推理能力进行深入研究。
Qwen-VL系列模型推出了两个增强版本:Qwen-VL-Plus和Qwen-VL-Max,提升了图像推理能力、细节识别和高清晰度图像支持。在多模态任务中表现优秀,超越了之前的开源模型。Qwen-VL-Max在中文问题回答和文本理解任务上超越了OpenAI的GPT-4V和谷歌的Gemini。
完成下面两步后,将自动完成登录并继续当前操作。