小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
《GPT 图解》笔记:QKV、多头注意力及掩码

本文探讨了注意力机制中的QKV、多头注意力和掩码。QKV分别代表查询、键和值,通过矩阵变换提取特征。多头注意力将输入分为多个子空间,从不同角度学习特征。掩码用于将不重要的信息权重设为接近“0”,以优化注意力计算。

《GPT 图解》笔记:QKV、多头注意力及掩码

Ying’s Blog
Ying’s Blog · 2026-05-30T01:09:06Z

本研究探讨了大语言模型中的键值缓存压缩技术,提出了多种量化方法以提高内存效率和推理速度。通过KIVI、LESS、MiKV等算法,显著降低了内存占用并提升了吞吐量,优化了模型性能。这些方法在保持生成质量的同时,实现了高压缩比和更大的上下文长度,为资源受限环境中的大语言模型应用提供了新思路。

零延迟QKV压缩以减轻大型语言模型推理中的KV缓存和网络瓶颈

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-07T00:00:00Z

该文介绍了一种基于键值记忆的注意力机制模型,用于神经机器翻译。该模型通过维护及时更新的键内存和固定值内存来存储源语句的表示,以便在每个解码步骤时,可以关注更合适的源单词来预测下一个目标单词,从而提高翻译的适用性。实验结果表明该模型在中英文和WMT17德英翻译任务中表现优越。

神经注意力:利用神经网络增强自注意力机制中的 QKV 计算

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-17T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码