本研究提出了多个新数据集和框架,探索视觉语言模型(VLMs)和多模态大型语言模型(MLLMs)的应用。研究发现,基于ImageNet和iNat2021的特征学习优于自我监督方法,且MLLMs在复杂任务中表现出色。通过自然语言交互减少标记工作量,提升了模型在图像分类和科学图表理解方面的性能,具有重要应用潜力。
完成下面两步后,将自动完成登录并继续当前操作。