把MLA和稀疏激活带到端侧!港科大广州和伦敦大学学院团队联合发布软硬协同设计的边缘语言模型PLM

把MLA和稀疏激活带到端侧!港科大广州和伦敦大学学院团队联合发布软硬协同设计的边缘语言模型PLM

💡 原文中文,约4100字,阅读约需10分钟。
📝

内容提要

PLM团队开发了一种新型边缘设备语言模型,结合MLA注意力机制和ReLU²激活函数,优化了计算效率和内存使用。该模型在多项任务中表现优异,适配多种硬件,展现出高效、低延迟的性能,推动了边缘设备AI应用的发展。

🎯

关键要点

  • PLM团队开发了一种新型边缘设备语言模型,结合MLA注意力机制和ReLU²激活函数,优化了计算效率和内存使用。
  • PLM是首个结合MLA注意力机制与ReLU²激活的架构,性能优于现有小型语言模型。
  • PLM在通用知识理解和数学任务中表现出色,在代码能力评测中位居榜首。
  • 团队将模型适配至多种边缘设备,展现出优于同层数模型的吞吐优势,并开源模型权重和技术报告。
  • PLM采用了MLA注意力机制,优化了KV缓存,并通过ReLU²激活函数降低计算复杂度和内存消耗。
  • PLM的训练策略包括三阶段锻造,充分利用开源数据,达到企业级水平。
  • PLM在性能实测中表现竞争力,尤其在HumanEval中获得最高分。
  • PLM团队在多种硬件平台完成部署验证,评估了推理延迟和吞吐量。
  • PLM通过模型与硬件的协同设计,解决了内存、算力和I/O的瓶颈问题。
  • PLM展现出高效、低延迟的性能,为边缘设备AI应用提供了显著优势。
  • PLM团队致力于探索适用于边缘设备的大模型,推动高效模型的开发与部署。

延伸问答

PLM模型的主要创新点是什么?

PLM模型结合了MLA注意力机制和ReLU²激活函数,优化了计算效率和内存使用。

PLM在性能测试中表现如何?

PLM在HumanEval中获得最高分,并在多个任务中表现优异,尤其在通用知识理解和数学任务中。

PLM如何解决边缘设备的内存和算力瓶颈?

PLM通过模型与硬件的协同设计,优化了KV缓存和计算复杂度,从而解决了内存、算力和I/O的瓶颈问题。

PLM的训练策略是什么?

PLM采用三阶段锻造策略,充分利用开源数据,达到企业级水平。

PLM模型适配了哪些硬件平台?

PLM模型适配了多种边缘设备,包括Snapdragon等芯片,展现出优于同层数模型的吞吐优势。

PLM的稀疏激活设计有什么优势?

PLM的稀疏激活设计使得MLP层激活稀疏度达到90.9%,整体计算量减少26%,提高了计算效率。

➡️

继续阅读