小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
模块化:GPU内核的软件流水线:第一部分 - 流水线问题

Flash Attention 4是一种高效的GPU算法,通过数据流管道优化矩阵乘法,利用在线softmax和循环融合降低计算复杂度。该算法在处理大规模数据时有效利用硬件,尽管实现复杂且难以调试。未来将探讨如何简化和提高设计的可组合性。

模块化:GPU内核的软件流水线:第一部分 - 流水线问题

Modular Blog
Modular Blog · 2026-03-30T00:00:00Z
流匹配与半离散耦合

本文探讨了流匹配与半离散耦合的研究。流模型通过时间依赖的速度场生成数据,流匹配方法通过优化噪声与目标点的配对来训练模型。尽管最优传输(OT)流匹配在理论上有潜力,但实际应用有限。研究提出半离散流匹配(SD-FM),通过简化计算复杂度,提升了训练效果,超越了传统流匹配和OT流匹配。

流匹配与半离散耦合

Apple Machine Learning Research
Apple Machine Learning Research · 2026-03-06T00:00:00Z
LLMs中的KV缓存:开发者指南

本文介绍了自回归变换器推理中键值(KV)缓存的作用,如何通过缓存已计算的键和值来消除冗余计算,从而显著提高生成速度,推理速度提升可达3-5倍。尽管内存使用增加,但在实际应用中,这种提升是值得的。理解KV缓存为进一步优化推理提供了基础。

LLMs中的KV缓存:开发者指南

MachineLearningMastery.com
MachineLearningMastery.com · 2026-02-26T14:43:49Z
记忆问题:为什么大型语言模型有时会忘记你的对话

大型语言模型(LLM)缺乏传统记忆,处理对话时需重新读取信息,导致上下文丢失。上下文窗口限制对话长度,增加窗口会显著提高计算复杂度。检索增强生成(RAG)方法通过外部数据库提供相关信息,缓解了这一问题。理解这些限制有助于更有效地使用AI助手。

记忆问题:为什么大型语言模型有时会忘记你的对话

ByteByteGo Newsletter
ByteByteGo Newsletter · 2025-10-22T15:31:13Z

浙江大学的InftyThink通过将长推理拆分为短片段并引入总结,实现了无限深度推理,降低了计算复杂度,提升了模型性能,适用于多种模型,前景广阔。

给大模型装上「思维分段引擎」:浙大InftyThink解锁无限深度推理

量子位
量子位 · 2025-06-09T15:19:01Z

本研究提出了一种新的八次对称ViT架构,有效提升了计算机视觉模型的性能与效率。实验结果显示,该方法在分类和分割任务中显著提高了性能,同时将ViT-H的计算复杂度降低约40%。

更强的八次对称ViT

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-21T00:00:00Z
SMUGGLER:亚二次方多尺度统一生成门控语言编码器-表示

本文介绍了SMUGGLER,一种新型层次神经网络架构,计算复杂度为O(n log n),能高效处理长序列。该模型通过字节级预测,消除了嵌入表和注意力瓶颈,显著降低内存需求,适用于消费级硬件,性能与更多参数的模型相当。

SMUGGLER:亚二次方多尺度统一生成门控语言编码器-表示

DEV Community
DEV Community · 2025-05-11T17:54:29Z
MicroAlgo Inc. 开发量子边缘检测算法,为实时图像处理和边缘智能设备提供全新解决方案

MicroAlgo Inc.研发的量子边缘检测算法将计算复杂度从O(N²)降低至O(N),显著提升实时图像处理效率。该技术广泛应用于医学影像、遥感、工业质检和自动驾驶等领域,未来将拓展至多模态图像融合等新领域。

MicroAlgo Inc. 开发量子边缘检测算法,为实时图像处理和边缘智能设备提供全新解决方案

实时互动网
实时互动网 · 2025-05-09T06:17:26Z

本研究提出了一种名为稀疏注意力混合(MoSA)的方法,旨在降低大型语言模型自注意力计算的复杂度。MoSA通过动态选择注意力头的标记,显著提高模型性能,在相同计算预算下,困惑度比稠密基线高出27%。

Mixture of Sparse Attention: Content-Based Learnable Sparse Attention via Expert-Choice Routing

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-01T00:00:00Z

自动微分在深度学习中利用链式法则计算梯度,涉及雅可比矩阵和向量-雅可比积。正向模式和反向模式分别从前向和后向计算雅可比矩阵乘积,以优化存储和计算复杂度。

自动微分再探

Lei Mao's Log Book
Lei Mao's Log Book · 2025-04-12T07:00:00Z

本研究提出了一种资源高效的波束预测方法,解决了传统方法在快速变化通信环境中的适应性不足。通过知识蒸馏将多模态网络知识转移至单模态网络,并结合自动驾驶模拟器生成的数据,显著降低计算复杂度,同时保持预测准确性。模拟结果显示,在使用教师网络10%参数的情况下,单模态模型性能达到94.62%。

Resource-Efficient Beam Prediction and Multimodal Realistic Simulation Framework in mmWave Communications

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-07T00:00:00Z

本文提出了一种新方法,通过优化图像嵌入,改善基础医学分割模型在特定病变上的表现。实验结果显示,该方法在三个数据集上提升了约3%的Dice得分,同时计算复杂度减少了7倍,具有重要的应用潜力。

Test-time Adaptation for Foundation Medical Segmentation Model without Parametric Updates

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-02T00:00:00Z

该研究提出了一种在资源受限的边缘设备上实现超分辨率图像处理的方法,开发了8K@30FPS加速器,显著降低了计算复杂度和内存需求,同时保持了图像质量。

ESSR: An 8K@30FPS Super-Resolution Accelerator with Edge Selection Network

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-26T00:00:00Z
Swin变换器

分层变换器是一种变换器模型的变体,以多层结构处理数据。Swin变换器具有线性计算复杂度,相比早期视觉变换器在处理图像大小时更高效。

Swin变换器

DEV Community
DEV Community · 2025-03-17T00:55:06Z

本研究提出LServe系统,旨在解决长序列大型语言模型在预填充和解码阶段的计算复杂度和内存占用问题。通过混合稀疏注意力,该系统使预填充速度提升近2.9倍,解码速度提升1.3-2.1倍,同时保持长序列的精度。

LServe: Efficient Long-Sequence LLM Service with Unified Sparse Attention

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-20T00:00:00Z
增强扩散模型:稀疏性和正则化在高效生成 AI 中的作用

扩散模型在生成式AI中表现优异,尤其在图像合成任务中。研究表明,稀疏性正则化能够降低计算复杂度、提高收敛速度,从而优化模型效率。实验结果验证了该正则化方法在生成高质量样本方面的优势。

增强扩散模型:稀疏性和正则化在高效生成 AI 中的作用

实时互动网
实时互动网 · 2025-02-19T03:27:04Z
新AI系统通过自适应学习方法检测数据异常速度提高40%

新AI系统PEGASUS通过自适应学习方法,检测高维数据中的异常速度提高了40%。它结合流形学习与无监督异常检测,采用自适应邻域选择策略,性能优于现有方法,并降低了计算复杂度。

新AI系统通过自适应学习方法检测数据异常速度提高40%

DEV Community
DEV Community · 2025-02-08T06:55:19Z

本研究提出FIRMBOUND框架,通过优化早期分类停顿规则,降低计算复杂度。利用密度比估计和凸函数学习,FIRMBOUND实现了贝叶斯风险的最优性,提高了决策的速度和准确性。

基于序列概率比检验的有限时间范围内早期分类的最优停顿学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-29T00:00:00Z
斯特林公式(Stirling's Formula):我一个阶乘表达式,怎么就和圆扯上关系了呢?

阶乘在科研和工程中应用广泛,尤其在概率论和物理中。随着n的增大,阶乘计算复杂度迅速上升。斯特林公式为大数阶乘提供了近似计算方法,简化了计算过程,展现了数学的统一性与美感。

斯特林公式(Stirling's Formula):我一个阶乘表达式,怎么就和圆扯上关系了呢?

Long Luo's Life Notes
Long Luo's Life Notes · 2025-01-18T07:57:08Z

本研究提出了一种ELM-DeepONets方法,通过极限学习机实现无反向传播的深度算子网络训练,显著降低了计算复杂度。实验结果表明,该方法在保持高精度的同时,减少了计算成本,为算子学习提供了高效的替代方案。

ELM-DeepONets: Backpropagation-Free Training of Deep Operator Networks via Extreme Learning Machines

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-16T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码