Transformer危!谷歌MoR架构发布:内存减半推理速度还翻倍
保持大模型性能的同时降低计算和内存成本
谷歌推出的新架构Mixture-of-Recursions(MoR)实现了推理速度提升2倍,内存减少50%。该架构通过统一参数共享和自适应计算,降低了计算和内存成本,同时保持了大模型的性能。MoR在多个参数规模上优于传统Transformer,展现出更高的计算效率和可扩展性。
标签
transformer
相关的文章:本文汇集了最新的Transformer相关研究,探讨了新架构的出现及其对传统模型的挑战,展现了深度学习领域的前沿动态与未来趋势。
保持大模型性能的同时降低计算和内存成本
谷歌推出的新架构Mixture-of-Recursions(MoR)实现了推理速度提升2倍,内存减少50%。该架构通过统一参数共享和自适应计算,降低了计算和内存成本,同时保持了大模型的性能。MoR在多个参数规模上优于传统Transformer,展现出更高的计算效率和可扩展性。
2025 年 6 月 Rust Jobs Report 阅读:https://filtra.io/rust/jobs-report/jun-25 Rust-Analyzer 更新日志 新功能:支持折叠多行参数列表;函数体、在全局符号中包含枚举变体;为元组结构体启用 generate_new 功能。 修复:修复文档渲染中的崩溃、解析器错误、dyn 提示显示问题、naked_asm! 和...
2025年6月Rust更新包括Rust-Analyzer的新功能和改进,提升了功能性和稳定性。gpt-rs库简化了GPT模型调用,Uzu引擎优化了AI推理。ZeroFS增强了NFS服务器性能,Thunk支持XP,EdgeLinkd兼容Node-RED。Rodio音频库更新了API,intern-mint实现了字节切片共享。Bitpiece库简化了位字段操作,Rwatch替代传统的watch命令。
如下图所示,随着 DiT 去噪器参数量从 3,200 万(ADiT-S,蓝色)增至1.3 亿(ADiT-B,橙色),再到 4.5 亿(ADiT-L,绿色),即使在约 13 万个样本的中等规模数据集上,扩散训练损失持续降低,有效性比率稳步提升,呈现出显著的规模效应。构建起统一的原子扩散模型架构,一举攻克蛋白质结构预测与设计任务。值得注意的是,ADiT 基于标准 Transformer...
ADiT模型通过结合潜在表示与Transformer技术,突破了原子系统建模的周期性与非周期性限制,显著提高了生成效率与可扩展性,为新材料和药物设计提供了重要支持。
而且Attention并非All You Need
Mamba探讨了状态空间模型(SSMs)与Transformer的优劣,指出Attention并非万能,SSMs在处理长序列信息时更具优势。Mamba在同规模下超越Transformer,强调混合模型的潜力,未来可能结合两者优势开发新架构。
像人类一样“想清楚再回答”
弗吉尼亚大学团队提出的EBT(基于能量的Transformer)架构,通过能量机制在多个维度上超越Transformer++,提升约35%。EBT模拟人类思维,动态优化思考步数,展现出良好的扩展性和泛化能力。