Apple Machine Learning Research ·

MM1.5：多模态大语言模型微调的方法、分析与洞察

💡 原文英文，约200词，阅读约需1分钟。

📝

内容提要

MM1.5是一种新型多模态大语言模型，旨在提升图像理解、视觉引用和多图像推理能力。该模型采用数据中心化训练，探索多样数据对训练的影响，涵盖1B至30B参数的多种变体，并推出了针对视频理解和移动UI理解的专门变体。实证研究提供了训练过程的深入见解，为未来多模态模型研究提供指导。

🎯

🔎

MM1.5通过数据中心化训练，系统性地探索多样数据对模型性能的影响。这种方法不仅提升了图像理解和多图像推理能力，还为未来的多模态模型研究提供了重要的参考，尤其是在数据策划和训练策略方面。

MM1.5推出的专门变体，如MM1.5-Video和MM1.5-UI，分别针对视频理解和移动UI理解。这表明多模态模型在特定应用场景中的潜力，未来可能会在更多领域实现更高效的应用。

尽管MM1.5的参数范围从1B到30B，但研究表明，即使是小规模模型（如1B和3B），通过精心的数据策划和训练策略，依然能够实现强大的性能。这为资源有限的研究者提供了新的可能性。

❓

MM1.5模型旨在提升图像理解、视觉引用和多图像推理能力。

该模型采用数据中心化训练，系统性探索多样数据对训练的影响。

模型涵盖1B至30B参数的多种变体，包括密集型和专家混合型（MoE）变体。

使用高质量的OCR数据和合成标题进行持续预训练。

推出了MM1.5-Video用于视频理解和MM1.5-UI用于移动UI理解。

实证研究提供了对训练过程和决策的深入见解，为未来的多模态模型研究提供指导。

🏷️