本研究提出了一种新的设计空间探索方法,解决了多模态大型语言模型中对复杂视觉信息解读的不足。通过连接互补视觉编码器的视觉标记,提升了模型一致性,使得新模型在主要基准测试中表现优于其他开源模型。
完成下面两步后,将自动完成登录并继续当前操作。