Apple Machine Learning Research ·

闪存中的LLM：有限内存下的大型语言模型高效推理

💡 原文英文，约300词，阅读约需1分钟。

📝

内容提要

本文介绍了一种有效运行超过可用DRAM容量的大型语言模型（LLMs）的方法，通过将模型参数存储在闪存中，并按需将其传输到DRAM中来解决计算和内存需求的挑战。作者构建了推理成本模型，考虑了闪存特性，引入了窗口化和行列捆绑两种主要技术。这种方法使得模型可以在可用DRAM容量的两倍大小下运行，并且相比于CPU和GPU的朴素加载方法，推理速度分别提高了4-5倍和20-25倍。

🎯

关键要点

大型语言模型（LLMs）在现代自然语言处理中的重要性及其计算和内存需求的挑战。
本文提出通过将模型参数存储在闪存中，并按需传输到DRAM中，来有效运行超出可用DRAM容量的LLMs。
构建了推理成本模型，考虑闪存特性，优化数据传输和读取方式。
引入了两种主要技术：窗口化和行列捆绑，分别减少数据传输量和增加读取数据块的大小。
这种方法使得模型可以在可用DRAM容量的两倍大小下运行，推理速度相比于CPU和GPU的朴素加载方法分别提高了4-5倍和20-25倍。
整合稀疏性意识、上下文自适应加载和硬件导向设计，为在内存有限的设备上有效推理LLMs铺平了道路。

❓

延伸问答

如何在有限内存下运行大型语言模型？

通过将模型参数存储在闪存中，并按需传输到DRAM中，可以有效运行超出可用DRAM容量的LLMs。

本文提出了哪些技术来优化数据传输？

引入了窗口化和行列捆绑两种技术，分别减少数据传输量和增加读取数据块的大小。

使用闪存存储模型参数的优势是什么？

使用闪存可以使模型在可用DRAM容量的两倍大小下运行，并显著提高推理速度。

这种方法的推理速度相比传统方法提高了多少？

相比于CPU和GPU的朴素加载方法，推理速度分别提高了4-5倍和20-25倍。

本文如何解决大型语言模型的计算和内存需求挑战？

通过构建推理成本模型，优化数据传输和读取方式，解决计算和内存需求的挑战。

在内存有限的设备上推理LLMs的前景如何？

整合稀疏性意识、上下文自适应加载和硬件导向设计，为在内存有限的设备上有效推理LLMs铺平了道路。

🏷️

继续阅读

英伟达Vera Rubin直接指挥硬盘：内存变HBM加HBF加SSD三层结构
英伟达计划通过Vera Rubin架构实现GPU直接管理存储，形成HBM、HBF和SSD三层内存结构。这将提升AI服务器性能，减轻CPU负担，闪存厂商将受...
【操作系统百科】Linux 内核内存模型
内核并发代码中的READ_ONCE、smp_mb()等原语是确保正确性的基础。Linux内核内存模型（LKMM）有助于理解这些原语，防止编译器和CPU重排...
富士胶片影像公益持续接力，走进云南怒江州
富士胶片影像公益活动于2026年5月19日在云南怒江州启动，主题为“为世界绽放更多笑容”。活动由上海浦东新区工会牵头，旨在通过手机摄影和课堂教学，激发孩子...
AI赋能疾控数据安全 | 绿盟科技亮相“2026年全国生物样本与数据资源学术大会”
中国疾病预防控制中心与中国防痨协会近日举办了“2026年全国生物样本与数据资源学术大会”，讨论生物样本与数据资源在传染病防控中的重要性。绿盟科技分享了在疾...
【漏洞通告】Adobe ColdFusion任意文件读取漏洞（CVE-2024-53961）
Adobe ColdFusion存在任意文件读取漏洞（CVE-2024-53961），攻击者可绕过限制读取敏感文件。受影响版本包括ColdFusion 2...
【漏洞通告】Windows LDAP拒绝服务漏洞（CVE-2024-49113）
近期发现Windows LDAP远程代码执行漏洞（CVE-2024-49113），攻击者可利用此漏洞导致拒绝服务或信息泄露。受影响的系统包括多个版本的Wi...