机器之心 ·

抛弃视觉编码器，这个「原生版」多模态大模型也能媲美主流方法

💡 原文中文，约3600字，阅读约需9分钟。

📝

内容提要

智源研究院与大连理工大学、北京大学等合作推出了新一代无编码器的视觉语言模型EVE。EVE通过去除视觉编码器，能处理任意图像长宽比，并通过精细化的训练策略和额外的视觉监督，在多个视觉-语言基准测试中表现出色，与基于编码器的主流多模态方法相媲美。EVE的提出为纯解码器的原生多模态架构发展提供了一条透明且高效的路径。

🎯

关键要点

智源研究院与大连理工大学、北京大学等合作推出无编码器视觉语言模型EVE。
EVE去除视觉编码器，能处理任意图像长宽比，在多个视觉-语言基准测试中表现出色。
EVE的提出为纯解码器的多模态架构发展提供了高效的路径。
当前视觉语言模型依赖视觉编码器，存在训练分离和视觉归纳偏置问题。
EVE通过精细化训练策略和额外视觉监督，整合视觉-语言表征、对齐和推理。
EVE模型的预训练使用公开数据，训练时间短，数据和训练代价少。
EVE模型结构包括轻量级视觉编码层和视觉对齐层，增强视觉信息编码。
训练策略包括大语言模型引导的预训练、生成式预训练和监督式微调。
EVE在多个基准测试中优于Fuyu-8B，与主流基于编码器模型表现相当。
EVE表现出随着数据规模增加而稳定提升性能，逐渐逼近基于编码器模型的水平。
同行专家对EVE的创新性和架构表示赞赏，认为其为视觉语言模型领域带来新思路。
未来EVE还有许多有趣的方向值得探索。

❓

延伸问答

EVE模型的主要创新是什么？

EVE模型去除了视觉编码器，能够处理任意图像长宽比，并在多个视觉-语言基准测试中表现出色。

EVE模型的训练策略有哪些？

EVE的训练策略包括大语言模型引导的预训练、生成式预训练和监督式微调。

EVE与传统视觉语言模型相比有什么优势？

EVE在输入尺寸灵活性、部署效率和模态容量匹配方面优于传统的基于编码器的视觉语言模型。

EVE模型的预训练数据来源是什么？

EVE模型的预训练使用了来自OpenImages、SAM和LAION的公开数据。

EVE模型在基准测试中的表现如何？

EVE在多个视觉-语言基准测试中表现优于同类型的Fuyu-8B，并与主流基于编码器的模型相当。

未来EVE模型的发展方向是什么？

未来EVE模型有许多有趣的方向值得探索，可能会进一步提升其性能和应用范围。

🏷️

继续阅读

macOS 存储管理漫谈：去重是节约空间的最好方法
文章讨论了macOS的存储管理，强调手动清理垃圾文件的重要性。虽然macOS会定期自动清理临时文件，但许多被标记为垃圾的文件实际上对系统有用。清理软件主要...
从超级个体到超级团队，腾讯云发布WorkBuddy企业版
腾讯云在AI产业应用大会上发布了WorkBuddy企业版及办公智能体套件，旨在帮助企业实现AI转型。该套件提供数字员工、人机协作和团队管理功能，提升工作效...
有网友在谷歌搜索Codex被恶意广告欺骗带毒版直接窃取2万美元的加密货币
近期有网友在谷歌搜索Codex时被骗，损失高达2万美元的加密货币。攻击者利用谷歌商家域名创建钓鱼网站，诱导用户执行恶意安装命令，导致用户剪贴板内容被替换。...
Brave浏览器推出官方去广告版售价59.99美元(买断) 可禁用内置的各类广告功能
Brave 浏览器推出付费精简版 Origin，售价 59.99 美元，去除广告和盈利功能，支持最多 10 台设备同步。Linux 用户可免费使用，但在其...
B站宣布启动AI创造公开赛打造中国版Build in Public
哔哩哔哩于6月5日启动“AI创造公开赛”，旨在鼓励普通用户参与AI产品开发。比赛无年龄、学历限制，用户可通过投币和弹幕参与评选。赛事吸引了60%非专业开发...
41 项人体试验告诉你：哪些抗衰老方法真能逆转生物学年龄
哈佛科学家回顾 41 项人体干预研究，用下一代表观遗传时钟验证各类抗衰老方法。发现司美格鲁肽、鱼油、运动确实有效；而血浆置换反而加速老化；雷帕霉素、NR ...