小红花·文摘

本研究提出了一种新的设计空间探索方法，解决了多模态大型语言模型中对复杂视觉信息解读的不足。通过连接互补视觉编码器的视觉标记，提升了模型一致性，使得新模型在主要基准测试中表现优于其他开源模型。