小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
甲骨文 ARM 实例部署 Gemma 4 模型

本文介绍了一种在Oracle ARM硬件上运行的大型语言模型(MoE),该模型拥有260亿参数,但每次生成仅激活40亿参数。性能估计显示,输入处理速度为150-400个令牌每秒,输出生成速度为3-8个令牌每秒,主要受内存带宽限制。建议通过优化线程设置和使用Flash Attention来提高效率。

甲骨文 ARM 实例部署 Gemma 4 模型

Dejavu's Blog
Dejavu's Blog · 2026-04-07T04:11:45Z

机器之心数据服务现已上线,提供高效稳定的数据获取服务,帮助用户轻松获取所需数据。

FlashAttention-4震撼来袭,原生支持Blackwell GPU,英伟达的护城河更深了?

机器之心
机器之心 · 2025-08-26T10:13:07Z
在TileLang中实现Flash Attention(比FA-2快1.3倍):第一部分

本文介绍了在TileLang中实现Flash Attention的前向传播,强调其内核设计、内存分配和计算过程。TileLang的性能比FlashAttention-2快1.3倍,达到630 TFLOPS/s,主要通过优化内存访问和计算并行性来提升性能。

在TileLang中实现Flash Attention(比FA-2快1.3倍):第一部分

Nathan Chen
Nathan Chen · 2025-07-19T00:00:00Z

本研究提出了FLASH-D,一种改进的变换器注意力机制,通过将Softmax计算与矩阵运算结合,显著提高了计算效率,降低了硬件面积和功耗,具有实际应用潜力。

FLASH-D: FlashAttention with Implicit Softmax Division

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z

斯坦福大学CS336课程探讨了GPU在语言模型中的重要性,旨在让学生理解CUDA和GPU的工作原理,学习加速算法的方法。讲师强调内存访问效率,并介绍了低精度计算、操作融合和重计算等优化策略。课程还讨论了Flash Attention的实现,强调硬件在现代语言模型中的关键作用。

斯坦福大学CS336课程:从零开始的语言模型 | 2025年春季 | GPU

Josherich的博客
Josherich的博客 · 2025-05-01T00:00:01Z

FlashAttention通过优化注意力算法的内存使用,提升了性能。其核心在于分块处理K、V矩阵,并利用在线softmax技术减少内存读写,从而实现高效的注意力计算。

FlashAttention解读

李文举
李文举 · 2025-03-01T05:20:08Z
视觉指南揭示FlashAttention如何提高AI内存管理效率

本文总结了研究论文《视觉指南揭示FlashAttention如何提高AI内存管理效率》。FlashAttention算法通过可视化优化内存管理,减少数据在快慢内存间的移动,从而提升深度学习的IO效率和内存层次结构。

视觉指南揭示FlashAttention如何提高AI内存管理效率

DEV Community
DEV Community · 2024-12-07T07:12:04Z

本研究通过将模型参数存储在闪存中,提出“窗口化”和“行列捆绑”技术,减少数据传输,提高数据块大小,使大型语言模型在超出DRAM容量时高效运行。CPU和GPU推理速度分别提升4-5倍和20-25倍。结合稀疏感知和上下文自适应加载,为内存有限设备上的LLMs推理提供新方法。

INT-FlashAttention:使Flash Attention适用于INT8量化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-25T00:00:00Z

本文讨论了微软的Phi模型在小语言模型(SLM)家族中的优秀性能和多模态能力。Phi模型具有不同的参数规模和能力,包括Phi-1、Phi-1.5、Phi-2、Phi-3和Phi-3.5等多个代系。文章还介绍了Phi模型的需求和应用场景,以及一些“黑科技”如LongRoPE、MoE混合专家、DeepSpeed和Flash Attention等。此外,文章还提到了Phi模型与CLIP模型的结合以及Flash Attention技术的应用。

五分钟——了解SLM的优异代表Phi

dotNET跨平台
dotNET跨平台 · 2024-09-03T00:00:35Z
从 transformer 到 FlashAttention 再到 PagedAttention(1)

本文总结了Transformer模型的结构,重点介绍了编码器和解码器的输入输出关系。编码器处理用户输入的token并生成中间层输出;解码器根据编码器的输出逐步生成新的token。讨论了Masked Multi-Head Attention的作用,强调其对解码过程中因果性的影响,并指出GPT与Transformer的区别,GPT仅包含解码器并应用masked机制。

从 transformer 到 FlashAttention 再到 PagedAttention(1)

学习让我快乐
学习让我快乐 · 2024-08-31T16:00:00Z
新PyTorch API:几行代码实现不同注意力变体,兼具FlashAttention性能和PyTorch灵活性

PyTorch团队引入了FlexAttention,一个灵活的API,允许用户使用几行PyTorch代码实现多个注意力变体。通过torch.compile将其降低到一个融合的FlashAttention内核中,生成了一个不会占用额外内存且性能可与手写内核相媲美的FlashAttention内核。FlexAttention具有令人惊讶的表达能力,可以满足大多数用户对注意力变体的需求。

新PyTorch API:几行代码实现不同注意力变体,兼具FlashAttention性能和PyTorch灵活性

机器之心
机器之心 · 2024-08-11T03:01:41Z

英伟达与FlashAttention-3合作,优化H100芯片,提升训练速度和计算吞吐量。FlashAttention-3通过IO感知优化和分块处理,充分利用Hopper架构特点。引入异步方式、乒乓调度和两阶段GEMM-softmax流水线方案等技术,提高GPU利用率。采用FP8精度、分块量化和非相干处理技术,提高计算精度。在测试中,FlashAttention-3在注意力基准测试和消融实验中表现出色,速度快3-16倍。

H100利用率飙升至75%!英伟达亲自下场FlashAttention三代升级

量子位
量子位 · 2024-07-12T04:11:46Z

该文章介绍了三种新的注意力机制,比标准的多头注意力更高效和具有更好的学习能力,提高了Transformer模型的性能和广泛部署能力。这些机制包括优化的注意力、高效的注意力和超级注意力,参数数量和矩阵乘法次数较少,在视觉和自然语言处理任务中表现更好。作者在多个数据集上对这些机制进行了评估。

FlashAttention-3: 快速和准确的异步低精度注意力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-11T00:00:00Z

本文介绍了华为云Ascend C的FlashAttention算子性能优化实践,通过计算等价和切分有效降低HBM数据访问量,提升Attention处理性能。优化手段包括tiling基本块大小调整、核间负载均衡、CV流水并行、MTE2流水优化以及FixPipe流水优化等。实测在典型场景中性能提升4倍左右。开发者可参考此案例进行融合算子的性能优化。

基于Ascend C的FlashAttention算子性能优化最佳实践

华为云官方博客
华为云官方博客 · 2024-06-12T06:14:23Z

本文介绍了FlashAttention-2前向传递的优化实现,使用了自定义融合的CUDA内核,适应NVIDIA Hopper架构,并使用开源的CUTLASS库编写。通过解释在线softmax和连续的GEMM内核融合的挑战和技术,利用Hopper特定的Tensor Memory Accelerator(TMA)和Warpgroup Matrix-Multiply-Accumulate(WGMMA)指令,定义和转换CUTLASS布局和张量,重叠复制和GEMM操作,并选择最优瓦片大小,平衡寄存器压力和共享内存利用率。在单个H100 PCIe GPU上的对比性测试中,与针对上一代NVIDIA Ampere架构进行优化的FlashAttention-2版本相比,FLOPs/s高出20-50%。

CUDA 内核融合研究案例:在 NVIDIA Hopper 架构上使用 CUTLASS 库实现 FlashAttention-2

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-19T00:00:00Z

本文介绍了Multi-Query Attention技术,可共享Key和Value矩阵,提高推理速度和降低显存占用。MQA和MHA在代码实现上有差异,本地加载ChatGLM2-6B模型。基于P-Tuning v2的微调方法可将参数量减少到原来的0.1%,微调后的模型效果更好。

通透理解FlashAttention与FlashAttention2:全面降低显存读写、加快计算速度

结构之法 算法之道
结构之法 算法之道 · 2023-10-06T12:08:32Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码