小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

小米MiMo团队推出HySparse混合稀疏注意力架构,显著降低KV Cache的存储和计算开销,提升超长上下文建模效率。通过将“选择”和“缓存”交给Full Attention层,HySparse实现了高效的长距离信息访问,实验结果显示其在多项任务中表现优异。

小米给KV Cache减负80%!MiMo团队推出混合稀疏注意力架构

量子位
量子位 · 2026-02-07T10:47:34Z

本研究探讨了视觉自回归模型在推理过程中的高内存开销,首次形式化定义了KV缓存压缩问题,并证明在特定条件下,基于注意力架构的生成机制至少需要$(n^2 d)$的内存,揭示了实现次平方级内存使用的不可行性,为未来的内存优化提供了理论依据。

Exploring the Limits of KV Cache Compression in Visual Autoregressive Transformers

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-19T00:00:00Z

本研究首次揭示了注意力架构中标记选择的良性过拟合问题及其机制,重点研究线性模型和两层神经网络的收敛性,为后续研究提供新视角。

Benign or Non-Benign Overfitting in Label Selection within Attention Mechanisms

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-26T00:00:00Z

研究发现,机器学习的重要突破主要归功于大规模的注意力架构和数据集。本文通过在包含一千万局国际象棋比赛的数据集上训练一个含有2.7亿个参数的transformer模型,成功解决了一系列难题,并超越了AlphaZero的性能。

无搜索的国际大师级棋局

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-07T00:00:00Z

本文提出了一种新的框架,可以自动捕捉基于权威睡眠医学指导的人类睡眠的脑电图信号的时频特性,并通过使用时间 - 频率补丁序列划分输入的 EEG 频谱图的信息特征和基于注意力的架构并行地有效地搜索划分的时频补丁与睡眠阶段的定义因素之间的相关性来对其进行定义。该方法在 Sleep Heart Health Study 数据集上得出了新的最先进结果,具有高度一致性和可解释性。

aSAGA: 自动睡眠分析与灰色区域

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-03T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码