小红花·文摘

Apple Machine Learning Research ·

本研究提出了两种技术，通过重新使用神经元和利用闪存的顺序数据访问能力，以满足大型语言模型的高效运行需求。这些方法使得模型能够在可用DRAM容量的两倍大小的情况下运行，并实现了CPU和GPU推理速度的显著提升。

BriefGPT - AI 论文速递 ·