小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
理解 KV Cache:Attention、P/D 分离与 vLLM 的页式显存管理

本文探讨了大语言模型中KV Cache的产生与管理及其在推理过程中的重要性。KV Cache通过缓存历史K/V向量,优化生成过程并减少计算复杂度。Prefill阶段处理所有输入,而Decode阶段逐步生成输出,二者需分离以提升性能。vLLM采用页式内存管理,解决内存碎片问题,提升存储效率,确保高效的推理系统。

理解 KV Cache:Attention、P/D 分离与 vLLM 的页式显存管理

Steins;Lab
Steins;Lab · 2026-05-06T16:28:41Z

本文探讨了自注意力机制的核心概念及其与传统模型的比较。自注意力允许序列内的每个token相互沟通,解决了RNN的长依赖问题。由于自注意力对位置无知,需通过位置编码注入位置信息。多头注意力使不同头学习不同关系。尽管自注意力在长序列处理上表现优异,但其计算复杂度为O(N²),引发了对优化的研究。

【Transformer 与注意力机制】14|Self-Attention:让序列自己看自己

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z

多头注意力机制的核心在于独立计算不同的注意力分布,而非简单平均。理解位置限制和计算复杂度是后续研究的重点。

【Transformer 与注意力机制】16|Multi-Head Attention:为什么要分多个头

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-15T00:00:00Z
模块化:GPU内核的软件流水线:第一部分 - 流水线问题

Flash Attention 4是一种高效的GPU算法,通过数据流管道优化矩阵乘法,利用在线softmax和循环融合降低计算复杂度。该算法在处理大规模数据时有效利用硬件,尽管实现复杂且难以调试。未来将探讨如何简化和提高设计的可组合性。

模块化:GPU内核的软件流水线:第一部分 - 流水线问题

Modular Blog
Modular Blog · 2026-03-30T00:00:00Z
流匹配与半离散耦合

本文探讨了流匹配与半离散耦合的研究。流模型通过时间依赖的速度场生成数据,流匹配方法通过优化噪声与目标点的配对来训练模型。尽管最优传输(OT)流匹配在理论上有潜力,但实际应用有限。研究提出半离散流匹配(SD-FM),通过简化计算复杂度,提升了训练效果,超越了传统流匹配和OT流匹配。

流匹配与半离散耦合

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-06T00:00:00Z
LLMs中的KV缓存:开发者指南

本文介绍了自回归变换器推理中键值(KV)缓存的作用,如何通过缓存已计算的键和值来消除冗余计算,从而显著提高生成速度,推理速度提升可达3-5倍。尽管内存使用增加,但在实际应用中,这种提升是值得的。理解KV缓存为进一步优化推理提供了基础。

LLMs中的KV缓存:开发者指南

MachineLearningMastery.com
MachineLearningMastery.com · 2026-02-26T14:43:49Z
记忆问题:为什么大型语言模型有时会忘记你的对话

大型语言模型(LLM)缺乏传统记忆,处理对话时需重新读取信息,导致上下文丢失。上下文窗口限制对话长度,增加窗口会显著提高计算复杂度。检索增强生成(RAG)方法通过外部数据库提供相关信息,缓解了这一问题。理解这些限制有助于更有效地使用AI助手。

记忆问题:为什么大型语言模型有时会忘记你的对话

ByteByteGo Newsletter
ByteByteGo Newsletter · 2025-10-22T15:31:13Z

浙江大学的InftyThink通过将长推理拆分为短片段并引入总结,实现了无限深度推理,降低了计算复杂度,提升了模型性能,适用于多种模型,前景广阔。

给大模型装上「思维分段引擎」:浙大InftyThink解锁无限深度推理

量子位
量子位 · 2025-06-09T15:19:01Z

本研究提出了一种新的八次对称ViT架构,有效提升了计算机视觉模型的性能与效率。实验结果显示,该方法在分类和分割任务中显著提高了性能,同时将ViT-H的计算复杂度降低约40%。

更强的八次对称ViT

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z
SMUGGLER:亚二次方多尺度统一生成门控语言编码器-表示

本文介绍了SMUGGLER,一种新型层次神经网络架构,计算复杂度为O(n log n),能高效处理长序列。该模型通过字节级预测,消除了嵌入表和注意力瓶颈,显著降低内存需求,适用于消费级硬件,性能与更多参数的模型相当。

SMUGGLER:亚二次方多尺度统一生成门控语言编码器-表示

DEV Community
DEV Community · 2025-05-11T17:54:29Z
MicroAlgo Inc. 开发量子边缘检测算法,为实时图像处理和边缘智能设备提供全新解决方案

MicroAlgo Inc.研发的量子边缘检测算法将计算复杂度从O(N²)降低至O(N),显著提升实时图像处理效率。该技术广泛应用于医学影像、遥感、工业质检和自动驾驶等领域,未来将拓展至多模态图像融合等新领域。

MicroAlgo Inc. 开发量子边缘检测算法,为实时图像处理和边缘智能设备提供全新解决方案

实时互动网
实时互动网 · 2025-05-09T06:17:26Z

本研究提出了一种名为稀疏注意力混合(MoSA)的方法,旨在降低大型语言模型自注意力计算的复杂度。MoSA通过动态选择注意力头的标记,显著提高模型性能,在相同计算预算下,困惑度比稠密基线高出27%。

Mixture of Sparse Attention: Content-Based Learnable Sparse Attention via Expert-Choice Routing

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-01T00:00:00Z

自动微分在深度学习中利用链式法则计算梯度,涉及雅可比矩阵和向量-雅可比积。正向模式和反向模式分别从前向和后向计算雅可比矩阵乘积,以优化存储和计算复杂度。

自动微分再探

Lei Mao's Log Book
Lei Mao's Log Book · 2025-04-12T07:00:00Z

本研究提出了一种资源高效的波束预测方法,解决了传统方法在快速变化通信环境中的适应性不足。通过知识蒸馏将多模态网络知识转移至单模态网络,并结合自动驾驶模拟器生成的数据,显著降低计算复杂度,同时保持预测准确性。模拟结果显示,在使用教师网络10%参数的情况下,单模态模型性能达到94.62%。

Resource-Efficient Beam Prediction and Multimodal Realistic Simulation Framework in mmWave Communications

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-07T00:00:00Z

本文提出了一种新方法,通过优化图像嵌入,改善基础医学分割模型在特定病变上的表现。实验结果显示,该方法在三个数据集上提升了约3%的Dice得分,同时计算复杂度减少了7倍,具有重要的应用潜力。

Test-time Adaptation for Foundation Medical Segmentation Model without Parametric Updates

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-02T00:00:00Z

该研究提出了一种在资源受限的边缘设备上实现超分辨率图像处理的方法,开发了8K@30FPS加速器,显著降低了计算复杂度和内存需求,同时保持了图像质量。

ESSR: An 8K@30FPS Super-Resolution Accelerator with Edge Selection Network

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-26T00:00:00Z
Swin变换器

分层变换器是一种变换器模型的变体,以多层结构处理数据。Swin变换器具有线性计算复杂度,相比早期视觉变换器在处理图像大小时更高效。

Swin变换器

DEV Community
DEV Community · 2025-03-17T00:55:06Z

本研究提出LServe系统,旨在解决长序列大型语言模型在预填充和解码阶段的计算复杂度和内存占用问题。通过混合稀疏注意力,该系统使预填充速度提升近2.9倍,解码速度提升1.3-2.1倍,同时保持长序列的精度。

LServe: Efficient Long-Sequence LLM Service with Unified Sparse Attention

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-20T00:00:00Z
增强扩散模型:稀疏性和正则化在高效生成 AI 中的作用

扩散模型在生成式AI中表现优异,尤其在图像合成任务中。研究表明,稀疏性正则化能够降低计算复杂度、提高收敛速度,从而优化模型效率。实验结果验证了该正则化方法在生成高质量样本方面的优势。

增强扩散模型:稀疏性和正则化在高效生成 AI 中的作用

实时互动网
实时互动网 · 2025-02-19T03:27:04Z
新AI系统通过自适应学习方法检测数据异常速度提高40%

新AI系统PEGASUS通过自适应学习方法,检测高维数据中的异常速度提高了40%。它结合流形学习与无监督异常检测,采用自适应邻域选择策略,性能优于现有方法,并降低了计算复杂度。

新AI系统通过自适应学习方法检测数据异常速度提高40%

DEV Community
DEV Community · 2025-02-08T06:55:19Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码