智源研究院与大连理工大学、北京大学等合作推出了新一代无编码器的视觉语言模型EVE。EVE通过去除视觉编码器,能处理任意图像长宽比,并通过精细化的训练策略和额外的视觉监督,在多个视觉-语言基准测试中表现出色,与基于编码器的主流多模态方法相媲美。EVE的提出为纯解码器的原生多模态架构发展提供了一条透明且高效的路径。
完成下面两步后,将自动完成登录并继续当前操作。