量子位 ·

姚期智团队开源新型注意力，节省90%内存不降性能，一个框架统一MHA/MQA/GQA

💡 原文中文，约1100字，阅读约需3分钟。

📝

内容提要

姚期智团队推出的新型注意力机制TPA，通过动态张量分解优化QKV，节省90%内存且不降低性能，兼容RoPE位置编码，统一多种注意力设计。新模型T6已开源，实验结果在多个基准测试中表现优异。

🎯

关键要点

姚期智团队推出新型注意力机制TPA，节省90%内存且不降低性能。
TPA通过动态张量分解优化QKV，统一了多种注意力设计。
新模型T6已开源，代码可在GitHub获取。
TPA兼容RoPE位置编码，能够无缝集成。
TPA在多个基准测试中表现优异，尤其在零样本和少样本性能上。
论文由清华和UCLA团队合作完成，涉及多位研究人员。

❓

延伸问答

TPA注意力机制的主要优势是什么？

TPA通过动态张量分解优化QKV，节省90%内存且不降低性能。

新模型T6的代码在哪里可以找到？

新模型T6的代码已在GitHub上开源，链接为https://github.com/tensorgi/T6。

TPA如何与RoPE位置编码兼容？

TPA能够无缝集成RoPE位置编码，实现以较低成本旋转分解KV。

TPA在基准测试中的表现如何？

TPA在多个基准测试中表现优异，尤其在零样本和少样本性能上。

TPA是如何优化注意力计算的？

TPA通过对QKV进行动态分解，减少内存占用并提高计算效率。

姚期智团队的研究合作单位有哪些？

研究由清华大学和UCLA团队合作完成，涉及多位研究人员。

🏷️

继续阅读

史上最强游戏掌机来了！性能堪比 PS5，但……
今年掌机市场因元器件成本上涨而涨价，但英特尔等公司推出的新芯片提升了掌机性能和能效。微星和宏碁的新款掌机搭载英特尔 Arc G3 处理器，表现出色，续航能...
从超级个体到超级团队，腾讯云发布WorkBuddy企业版
腾讯云在AI产业应用大会上发布了WorkBuddy企业版及办公智能体套件，旨在帮助企业实现AI转型。该套件提供数字员工、人机协作和团队管理功能，提升工作效...
HostKVM香港优化线路 VPS 限时 8 折：4GB 内存/2 核/40G SSD 仅需 $9.6/月
HostKVM推出香港VPS夏季特惠，所有线路享受8折优惠，针对内地客户优化，具备低延迟和高带宽性价比，支持信用卡和支付宝等多种支付方式。
谷歌Gemma 4 12B的性能几乎与26B基准相当——并可在您的笔记本电脑上运行
谷歌推出了Gemma 4 12B模型，旨在为标准笔记本电脑提供高性能的多模态智能。该模型内存占用比Gemma 4 26B小一半，但性能接近，支持本地运行，...
团队在处理重复支付时面临的后台挑战
现代支付系统表面简单，但重复交易的后台复杂性显著。文章探讨了构建重复支付系统时的七个挑战，包括管理支付计划、避免重复收费、优雅处理失败支付、保持系统状态一...
20260605的胡言乱语
本文介绍了多种技术工具和方法，包括YAMLResume简历管理工具、终端中的cal命令、Shlink短链接服务、systemd timers替代cron、...