苹果发现原生多模态模型Scaling Laws：早融合优于后融合，MoE优于密集模型

机器之心 ·

苹果发现原生多模态模型Scaling Laws：早融合优于后融合，MoE优于密集模型

💡 原文中文，约4600字，阅读约需11分钟。

📝

内容提要

研究表明，原生多模态模型（NMM）在早融合和后融合架构中性能相当，早融合在低参数下表现更佳且训练效率高。结合混合专家（MoE）可显著提升性能。随着计算预算增加，两者性能趋近，稀疏性有利于早融合。建议在统一架构内进行多模态特化，以更好地处理异构数据。

🎯

关键要点

原生多模态模型（NMM）在早融合和后融合架构中性能相当。
早融合在低参数下表现更佳且训练效率高。
结合混合专家（MoE）可显著提升性能。
随着计算预算增加，早融合和后融合的性能趋近。
稀疏性有利于早融合模型的表现。
建议在统一架构内进行多模态特化，以更好地处理异构数据。
早融合模型在较低的参数数量下表现出更强的性能。
后融合模型需要更多参数，计算最优模型性能较低。
稀疏 NMM 在相同推理成本下表现优于密集 NMM。
不同数据混合方式的 Scaling Laws 显示出不同的 scaling 系数。
原生多模态模型的训练效率高于后融合模型。
原生多模态训练可能是更有效的方法，尤其是在多模态基准测试中。
MoE 模型在处理异构数据时表现优于密集模型。

❓

延伸问答

原生多模态模型的早融合和后融合有什么区别？

早融合在低参数下表现更佳且训练效率高，而后融合需要更多参数，计算最优模型性能较低。

混合专家（MoE）如何提升原生多模态模型的性能？

结合混合专家（MoE）可以使模型学习特定于模态的权重，从而显著提升性能。

在计算预算增加的情况下，早融合和后融合的性能如何变化？

随着计算预算增加，早融合和后融合的性能趋近。

稀疏性对早融合模型的表现有什么影响？

稀疏性显著有利于早融合模型的表现，在相同推理成本下，稀疏 NMM 表现优于密集 NMM。

原生多模态模型的训练效率如何与后融合模型比较？

原生多模态模型的训练效率高于后融合模型，消耗的内存更少，训练速度更快。

研究人员对多模态特化的建议是什么？

研究人员建议在统一架构内进行多模态特化，以更好地处理异构数据。

🏷️

继续阅读

Nvidia最新模型现已上线
Nvidia发布了Nemotron 3 Ultra模型，拥有5500亿参数，支持高达100万标记的上下文窗口。该模型速度显著提升，能节省用户30%的成本。...
Mate Security的Asaf Wiener让每位后端工程师成为模型路由器。他这样做是正确的。
Mate Security的CEO Asaf Wiener强调AI原生公司的成本管理重要性。他通过细分AI模型的成本，确保每个后端工程师参与模型选择和评估...
Summary of MySQL Public Discussion #4: Updates and Improvements to Contributions – Let’s Talk About What’s Next for MySQL
One of the best things about MySQL has always been its community. Whether you...
Galaxea G0.5——升级“VLA自回归建模”范式：摒弃VLM上添加动作专家的模式，而是构建统一模型，用一套权重，在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)
星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列，通过共享权重实现推理与动作的耦合，提升机器人控制效率。该模型采用可学习的动作分词器和...
免费证书颁发机构Let’s Encrypt宣布迈向后量子时代将采用MTC后量子认证方案
Let’s Encrypt 宣布将采用默克尔树证书（MTC）技术，以应对量子计算机对现有加密算法的威胁。该技术通过批量签名和默克尔树设计，减少证书体积，提...
原华为盘古大模型负责人王云鹤离职创业；苹果硬件负责人启动重大重组；OpenAI联合创始人加入Anthropic
近期多家科技公司高管频繁变动。华为盘古大模型负责人王云鹤离职创业，成立新公司“基元律动”；阿里副总裁张凯夫也离职创业，专注市场行为预测；苹果硬件部门进行重...