小红花·文摘

本研究提出了多个新数据集和框架，探索视觉语言模型（VLMs）和多模态大型语言模型（MLLMs）的应用。研究发现，基于ImageNet和iNat2021的特征学习优于自我监督方法，且MLLMs在复杂任务中表现出色。通过自然语言交互减少标记工作量，提升了模型在图像分类和科学图表理解方面的性能，具有重要应用潜力。