阿波罗:大型多模态模型的视频理解探索

📝

内容提要

本研究解决了大型多模态模型(LMMs)在视频理解方面的机制探索不足的问题,并提出了通过对视频-LMMs的设计和训练决策进行深入分析来提高其效率的突破性见解。最终,我们开发了阿波罗系列LMMs,实现了在不同模型规模下的优秀性能,显著提升了视频理解的效果。

➡️

继续阅读