量子位 ·

Transformer危！谷歌MoR架构发布：内存减半推理速度还翻倍

💡 原文中文，约2900字，阅读约需7分钟。

📝

内容提要

谷歌推出的新架构Mixture-of-Recursions（MoR）实现了推理速度提升2倍，内存减少50%。该架构通过统一参数共享和自适应计算，降低了计算和内存成本，同时保持了大模型的性能。MoR在多个参数规模上优于传统Transformer，展现出更高的计算效率和可扩展性。

🎯

关键要点

谷歌推出新架构Mixture-of-Recursions（MoR），推理速度提升2倍，内存减少50%。
MoR通过统一参数共享和自适应计算，降低计算和内存成本，同时保持大模型性能。
MoR在多个参数规模上优于传统Transformer，展现出更高的计算效率和可扩展性。
MoR采用递归Transformer结构，复用共享参数池，提升训练效率。
MoR的动态路由机制为每个token分配不同递归深度，提高推理效率。
MoR通过KV缓存策略管理键值存储，确保内存效率提升。
实验表明，MoR在相同训练预算下使用更少参数，验证损失更低，少样本准确率更高。
谷歌对底层架构的创新不断，MoR可能会改变AI领域的规则，超越Transformer。

❓

延伸问答

MoR架构的主要优势是什么？

MoR架构实现了推理速度提升2倍，内存减少50%，同时保持大模型性能。

MoR是如何降低计算和内存成本的？

MoR通过统一参数共享和自适应计算，降低计算和内存成本。

MoR与传统Transformer相比有什么不同？

MoR在多个参数规模上优于传统Transformer，展现出更高的计算效率和可扩展性。

MoR的动态路由机制是如何工作的？

MoR的动态路由机制为每个token分配不同递归深度，提高推理效率。

MoR在实验中表现如何？

实验表明，MoR在相同训练预算下使用更少参数，验证损失更低，少样本准确率更高。

谷歌推出MoR架构的背景是什么？

谷歌希望通过架构创新重构计算范式，寻找AI新的平衡，MoR是这一理念的体现。

🏷️

继续阅读

谷歌对地方社区的水资源管理承诺
谷歌宣布五项水资源管理承诺，计划到2030年补充超过消耗的水量，改善水安全。公司将投资水基础设施，支持地方水务项目，采用空气冷却方案保护水源，并透明报告年...
人工智能面临水资源问题，谷歌认为有解决方案
谷歌计划到2030年在其数据中心使用的水量将少于补充的水量，并承诺投资地方水利基础设施，寻找替代水源，提高透明度。尽管面临公众反对，谷歌将通过改进灌溉和基...
谷歌必须允许出版商选择退出AI搜索功能，英国裁定
英国竞争与市场管理局（CMA）裁定，谷歌必须允许网站所有者选择是否让其内容用于AI搜索功能。这一新规将增强出版商与谷歌的谈判能力，并确保内容得到适当归属。...
黄仁勋称美满电子将成为下一个万亿美元公司；SK海力士计划五年内将内存产能翻番；ChatGPT全球月活跃用户数突破10亿
黄仁勋表示，美满电子将成为下一个万亿美元公司。英伟达推出新PC处理器，SK海力士计划在五年内翻倍内存产能。ChatGPT月活跃用户数突破10亿，Space...
群联展示新款PCIe 6.0 16通道X3控制器速度可达28,000MB/秒最高可做到单盘2PB
群联推出新款PCIe 6.0 16通道X3控制器，顺序读写速度可达28,000MB/s，随机读写IOPS达680万，支持最高2PB存储容量，主要面向数据中...
苹果和谷歌悄然开发了一种新的HDR标准：Eclipse Video
苹果、谷歌和NBC环球与SMPTE合作推出Eclipsa Video新HDR视频标准，基于SMPTE 2094-50规范，旨在确保视频在不同设备和光线条件...