本研究探讨了视觉语言模型(VLM)在缩小尺寸时的连贯性问题,提出了两种新数据集,模拟幼儿学习,证明可以有效训练出比现有小型VLM模型小十倍的模型。这一发现推动了轻量化多模态模型的发展,适用于资源有限的环境。
完成下面两步后,将自动完成登录并继续当前操作。