Ripple:利用关联感知神经元管理加速智能手机上的大型语言模型推理
📝
内容提要
该研究解决了在智能手机上部署大型语言模型(LLMs)时面临的计算和内存需求过高的问题。论文提出了Ripple,通过优化神经元在闪存中的位置,结合神经元共激活的概念,显著提高了数据传输效率。研究表明,Ripple在I/O延迟方面相比现有技术提升了最多5.93倍,开辟了稀疏性驱动算法与存储级系统协同设计的新优化空间。
🏷️
标签
➡️