小红花·文摘 - 小红花技术领袖俱乐部

理解 KV Cache：Attention、P/D 分离与 vLLM 的页式显存管理

理解 KV Cache：Attention、P/D 分离与 vLLM 的页式显存管理

Steins;Lab ·

本文探讨了自注意力机制的核心概念及其与传统模型的比较。自注意力允许序列内的每个token相互沟通，解决了RNN的长依赖问题。由于自注意力对位置无知，需通过位置编码注入位置信息。多头注意力使不同头学习不同关系。尽管自注意力在长序列处理上表现优异，但其计算复杂度为O(N²)，引发了对优化的研究。

【Transformer 与注意力机制】14｜Self-Attention：让序列自己看自己

土法炼钢兴趣小组的博客 ·

多头注意力机制的核心在于独立计算不同的注意力分布，而非简单平均。理解位置限制和计算复杂度是后续研究的重点。

【Transformer 与注意力机制】16｜Multi-Head Attention：为什么要分多个头

土法炼钢兴趣小组的博客 ·

模块化：GPU内核的软件流水线：第一部分 - 流水线问题

模块化：GPU内核的软件流水线：第一部分 - 流水线问题

Modular Blog ·

流匹配与半离散耦合

流匹配与半离散耦合

Apple Machine Learning Research ·

LLMs中的KV缓存：开发者指南

LLMs中的KV缓存：开发者指南

MachineLearningMastery.com ·

记忆问题：为什么大型语言模型有时会忘记你的对话

记忆问题：为什么大型语言模型有时会忘记你的对话

ByteByteGo Newsletter ·

浙江大学的InftyThink通过将长推理拆分为短片段并引入总结，实现了无限深度推理，降低了计算复杂度，提升了模型性能，适用于多种模型，前景广阔。

给大模型装上「思维分段引擎」：浙大InftyThink解锁无限深度推理

量子位 ·

本研究提出了一种新的八次对称ViT架构，有效提升了计算机视觉模型的性能与效率。实验结果显示，该方法在分类和分割任务中显著提高了性能，同时将ViT-H的计算复杂度降低约40%。

更强的八次对称ViT

BriefGPT - AI 论文速递 ·

SMUGGLER：亚二次方多尺度统一生成门控语言编码器-表示

SMUGGLER：亚二次方多尺度统一生成门控语言编码器-表示

DEV Community ·

MicroAlgo Inc. 开发量子边缘检测算法，为实时图像处理和边缘智能设备提供全新解决方案

MicroAlgo Inc. 开发量子边缘检测算法，为实时图像处理和边缘智能设备提供全新解决方案

实时互动网 ·

本研究提出了一种名为稀疏注意力混合（MoSA）的方法，旨在降低大型语言模型自注意力计算的复杂度。MoSA通过动态选择注意力头的标记，显著提高模型性能，在相同计算预算下，困惑度比稠密基线高出27%。

Mixture of Sparse Attention: Content-Based Learnable Sparse Attention via Expert-Choice Routing

BriefGPT - AI 论文速递 ·

自动微分在深度学习中利用链式法则计算梯度，涉及雅可比矩阵和向量-雅可比积。正向模式和反向模式分别从前向和后向计算雅可比矩阵乘积，以优化存储和计算复杂度。

自动微分再探

Lei Mao's Log Book ·

本研究提出了一种资源高效的波束预测方法，解决了传统方法在快速变化通信环境中的适应性不足。通过知识蒸馏将多模态网络知识转移至单模态网络，并结合自动驾驶模拟器生成的数据，显著降低计算复杂度，同时保持预测准确性。模拟结果显示，在使用教师网络10%参数的情况下，单模态模型性能达到94.62%。

Resource-Efficient Beam Prediction and Multimodal Realistic Simulation Framework in mmWave Communications

BriefGPT - AI 论文速递 ·

本文提出了一种新方法，通过优化图像嵌入，改善基础医学分割模型在特定病变上的表现。实验结果显示，该方法在三个数据集上提升了约3%的Dice得分，同时计算复杂度减少了7倍，具有重要的应用潜力。

Test-time Adaptation for Foundation Medical Segmentation Model without Parametric Updates

BriefGPT - AI 论文速递 ·

该研究提出了一种在资源受限的边缘设备上实现超分辨率图像处理的方法，开发了8K@30FPS加速器，显著降低了计算复杂度和内存需求，同时保持了图像质量。

ESSR: An 8K@30FPS Super-Resolution Accelerator with Edge Selection Network

BriefGPT - AI 论文速递 ·

Swin变换器

Swin变换器

DEV Community ·

本研究提出LServe系统，旨在解决长序列大型语言模型在预填充和解码阶段的计算复杂度和内存占用问题。通过混合稀疏注意力，该系统使预填充速度提升近2.9倍，解码速度提升1.3-2.1倍，同时保持长序列的精度。

LServe: Efficient Long-Sequence LLM Service with Unified Sparse Attention

BriefGPT - AI 论文速递 ·

增强扩散模型：稀疏性和正则化在高效生成 AI 中的作用

增强扩散模型：稀疏性和正则化在高效生成 AI 中的作用

实时互动网 ·

新AI系统通过自适应学习方法检测数据异常速度提高40%

新AI系统通过自适应学习方法检测数据异常速度提高40%

DEV Community ·