姚期智团队开源新型注意力,节省90%内存不降性能,一个框架统一MHA/MQA/GQA

💡 原文中文,约1100字,阅读约需3分钟。
📝

内容提要

姚期智团队推出的新型注意力机制TPA,通过动态张量分解优化QKV,节省90%内存且不降低性能,兼容RoPE位置编码,统一多种注意力设计。新模型T6已开源,实验结果在多个基准测试中表现优异。

🎯

关键要点

  • 姚期智团队推出新型注意力机制TPA,节省90%内存且不降低性能。
  • TPA通过动态张量分解优化QKV,统一了多种注意力设计。
  • 新模型T6已开源,代码可在GitHub获取。
  • TPA兼容RoPE位置编码,能够无缝集成。
  • TPA在多个基准测试中表现优异,尤其在零样本和少样本性能上。
  • 论文由清华和UCLA团队合作完成,涉及多位研究人员。
➡️

继续阅读