Text Over Visuals: ASCII Art Reveals Text Bias in Vision-Language Models 本研究探讨视觉语言模型(VLMs)在处理ASCII艺术时所面临的局限,特别是在文本与视觉模式冲突的情况下。研究发现,VLMs展现出强烈的文本优先偏见,随着语义复杂度增加,视觉识别能力显著下降。这一发现揭示了当前VLMs在多模态信息整合中的基本缺陷,为未来模型的改进提供了重要指导。 本研究分析了视觉语言模型(VLMs)在处理ASCII艺术时的局限性,发现其在文本与视觉模式冲突时存在文本优先偏见,且随着语义复杂度的增加,视觉识别能力下降。这为未来模型的改进提供了参考。 ASCII艺术 models 文本优先偏见 模型改进 视觉识别 视觉语言模型