小红花·文摘

本研究探讨了视觉-语言模型（VLMs）在文本编码器中获取语法知识的局限性，结果显示单模态语言模型（ULMs）在语法信息获取方面明显优于VLM，而VLM的语法学习受到预训练目标的显著影响。