小红花·文摘

本研究探讨了视觉语言模型（VLM）在缩小尺寸时的连贯性问题，提出了两种新数据集，模拟幼儿学习，证明可以有效训练出比现有小型VLM模型小十倍的模型。这一发现推动了轻量化多模态模型的发展，适用于资源有限的环境。