小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
模块化:GPU内核的软件流水线:第一部分 - 流水线问题

Flash Attention 4是一种高效的GPU算法,通过数据流管道优化矩阵乘法,利用在线softmax和循环融合降低计算复杂度。该算法在处理大规模数据时有效利用硬件,尽管实现复杂且难以调试。未来将探讨如何简化和提高设计的可组合性。

模块化:GPU内核的软件流水线:第一部分 - 流水线问题

Modular Blog
Modular Blog · 2026-03-30T00:00:00Z
AlphaEvolve:AI 打破 56 年数学纪录,发现更快的矩阵乘法算法

2025年,Google DeepMind的AlphaEvolve以48次标量乘法打破了1969年Strassen的矩阵乘法纪录。它不仅优化了矩阵运算,还解决了67个数学问题,展示了AI在数学领域的原创性和自我改进能力,预示着AI驱动的科学新时代的到来。

AlphaEvolve:AI 打破 56 年数学纪录,发现更快的矩阵乘法算法

Micropaper
Micropaper · 2026-03-01T01:45:00Z

Lambda-revenge是XCTF 2022的一道高难度逆向题,基于Lambda演算实现复杂的矩阵乘法验证。通过分析源代码和Church编码,提取矩阵及结果,建立线性方程组求解,最终得到flag:XCTF{M4tRI1|i||l|Il|I1X_A5_YC0mb}。

Lambda-revenge CTF逆向题目完整技术解析

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-11-20T03:56:14Z
如果今天这篇注意力机制的帖子看不懂的话,就...可以重读大一了

Softmax通过两步将分数转化为概率分布:首先取指数以确保分数为正,然后进行归一化以得到权重。转置操作QKᵀ确保查询和键的相似度计算顺利进行。

如果今天这篇注意力机制的帖子看不懂的话,就...可以重读大一了

dotNET跨平台
dotNET跨平台 · 2025-10-28T04:44:08Z
模块化:在Blackwell上的矩阵乘法:第4部分 - 打破SOTA

本文介绍了在NVIDIA Blackwell上优化矩阵乘法内核的过程,重点在于集群启动控制(CLC)优化。通过使用持久内核和调度器,消除了共享内存和障碍初始化的开销,性能提升15%,达到1772 TFLOPs,超越当前的SOTA。此外,探讨了通过块交换提高L2缓存命中率,从而实现更高效的调度和性能。

模块化:在Blackwell上的矩阵乘法:第4部分 - 打破SOTA

Modular Blog
Modular Blog · 2025-09-19T00:00:00Z
7个加速数值计算的NumPy技巧

本文介绍了七个使用NumPy加速数值计算的技巧,包括:用向量化操作替代循环、利用广播机制进行高效算术运算、使用np.where()进行条件逻辑、使用@进行矩阵乘法、利用np.dot()计算内积、使用np.random快速生成随机数据,以及用np.asarray()避免内存开销。这些技巧能显著提高大规模数据集的计算效率。

7个加速数值计算的NumPy技巧

MachineLearningMastery.com
MachineLearningMastery.com · 2025-09-16T12:00:35Z
模块化:Blackwell上的矩阵乘法:第三部分 - 达到85%最先进性能的优化

本文探讨了在NVIDIA Blackwell GPU上通过2SM技术和流水线优化矩阵乘法性能,达到360.2 TFLOPs,接近85%的最先进水平。采用多播和2xSM MMA优化共享内存,减少数据冗余,并通过流水线技术提升计算与内存传输的重叠,最终实现1429 TFLOPs,达到81%的目标。

模块化:Blackwell上的矩阵乘法:第三部分 - 达到85%最先进性能的优化

Modular Blog
Modular Blog · 2025-09-12T00:00:00Z
模块化:Blackwell上的矩阵乘法:第二部分 - 利用硬件特性优化矩阵乘法

本文探讨了Nvidia Blackwell GPU架构下的矩阵乘法优化,采用共享内存和循环分块技术,性能提升超过50倍。通过利用Tensor Memory和新指令集tcgen05.mma,进一步提高计算效率。尽管取得显著进展,但仍未达到cuBLAS的性能水平,后续将继续优化。

模块化:Blackwell上的矩阵乘法:第二部分 - 利用硬件特性优化矩阵乘法

Modular Blog
Modular Blog · 2025-09-05T00:00:00Z
模块化:在Nvidia Blackwell上的矩阵乘法:第一部分 - 介绍

本系列博客将展示如何在Nvidia Blackwell GPU上编写高性能矩阵乘法内核,力求达到或超越cuBLAS的性能。第一部分介绍矩阵乘法的重要性及其在大型语言模型中的应用,并用Mojo语言实现简单的矩阵乘法。后续部分将逐步优化内核性能,利用Blackwell的新硬件指令。

模块化:在Nvidia Blackwell上的矩阵乘法:第一部分 - 介绍

Modular Blog
Modular Blog · 2025-08-28T00:00:00Z
演讲:利用现代架构最大化CPU上的深度学习性能

Bibek Bhattarai在英特尔担任AI技术负责人,介绍了第四代Xeon处理器中的AMX(高级矩阵扩展)。AMX通过优化矩阵乘法,特别适用于深度学习工作负载,利用低精度计算(如bf16和int8)提升性能并减少内存带宽限制。使用AMX时需确保CPU支持并配置相应指令集。

演讲:利用现代架构最大化CPU上的深度学习性能

InfoQ
InfoQ · 2025-07-31T11:18:00Z

香港中文大学提出的新算法RXTX,通过结合机器学习与组合优化,优化矩阵乘法,节省5%-10%的能源和时间,尤其在大规模矩阵运算中表现优越。

矩阵乘法可以算得更快了!港中文10页论文证明:能源、时间均可节省

量子位
量子位 · 2025-05-18T05:54:32Z

谷歌的AlphaEvolve打破了56年来的矩阵乘法效率记录,改进了Strassen算法,将4×4矩阵乘法的标量乘法次数从49次减少到48次。这项技术不仅能解决复杂数学问题,还能提升AI训练和芯片设计的效率。研究人员通过进化算法让AI自主探索,发现更优解,展现出自我优化的潜力。

打破56年数学铁律!谷歌AlphaEvolve自我进化实现算法效率狂飙

量子位
量子位 · 2025-05-18T04:02:54Z
认识AlphaEvolve,谷歌的人工智能,它能够自我编写代码,并且刚刚节省了数百万的计算成本

谷歌DeepMind的AlphaEvolve AI系统打破了56年的矩阵乘法记录,发现了更高效的算法。该系统与Gemini LLMs合作,优化数据中心,提高计算效率,并在多个数学问题上取得突破,推动材料科学和药物发现等领域的发展。

认识AlphaEvolve,谷歌的人工智能,它能够自我编写代码,并且刚刚节省了数百万的计算成本

DEV Community
DEV Community · 2025-05-15T13:17:03Z

谷歌DeepMind与陶哲轩等科学家合作推出AlphaEvolve,提升了矩阵乘法、芯片设计和AI训练的效率,并能解决300年前的几何难题,展现出广泛的应用潜力。

陶哲轩DeepMind梦幻联动,最强通用科学Agent来了!一口气解决芯片设计、矩阵乘法和300年几何难题

量子位
量子位 · 2025-05-15T01:53:30Z

Google DeepMind推出AlphaEvolve,提升矩阵乘法效率;上海定制巴士系统优化公交服务;学习Rust需掌握核心概念;Nextcloud因Google限制失去文件上传功能;山区用户在使用SMS 2FA时面临困难,需要替代方案。

2025 05 15 HackerNews

介绍 on SuperTechFans
介绍 on SuperTechFans · 2025-05-15T00:24:13Z

AlphaEvolve是一个基于大型语言模型的进化编码代理,旨在发现和优化算法。它通过创意和自动评估提升谷歌数据中心的效率,设计了更快的矩阵乘法算法,并在数学和计算领域取得显著进展。AlphaEvolve能够处理复杂问题,推动算法发现,未来有望在多个领域带来变革。

AlphaEvolve:一个基于Gemini的编码代理,用于设计先进算法

Google DeepMind Blog
Google DeepMind Blog · 2025-05-14T14:59:00Z

AlphaEvolve是一个基于大型语言模型的进化编码代理,旨在发现和优化算法。它结合了创意问题解决能力和自动评估器,提升了谷歌的数据中心效率、芯片设计和AI训练。AlphaEvolve在数学和计算领域取得了显著进展,包括发现更快的矩阵乘法算法,并在多个开放数学问题上取得突破,展现出广泛的应用潜力。

AlphaEvolve:一个基于Gemini的编码代理,用于设计先进算法

Google DeepMind Blog
Google DeepMind Blog · 2025-05-14T14:59:00Z
在Triton中实现矩阵乘法及L2缓存优化

本文介绍了在Triton中实现矩阵乘法的方法,并进行了L2缓存优化。通过矩阵分块和利用快速的SRAM,减少对慢速DRAM的访问,从而显著提高性能。同时,优化L2缓存的使用,确保相邻线程共享数据,进一步提升计算效率。文中还提供了完整的Triton代码示例,以帮助读者理解实现过程。

在Triton中实现矩阵乘法及L2缓存优化

Nathan Chen
Nathan Chen · 2025-05-11T00:00:00Z

DeepSeek发布了开源矩阵乘法库DeepGEMM,专为英伟达Hopper GPU设计,支持FP8格式,提升AI训练效率。核心代码仅300行,简单易用,适用于多种AI架构,性能优于专家优化库。开发者可在GitHub获取代码。

DeepSeek AI开源周3/5:开源DeepGEMM通用矩阵乘法库提高效率

蓝点网
蓝点网 · 2025-03-21T16:42:05Z
一文看懂 DeepSeek 开源项目第三弹,300 行代码揭示 V3/R1 推理效率背后的关键

DeepGEMM 是一个针对 FP8 通用矩阵乘法优化的库,支持普通和混合专家(MoE)分组 GEMM。它采用即时编译(JIT),无需预编译,能够根据设备动态调整代码,提高计算效率。DeepGEMM 设计简洁,核心代码约 300 行,特别适合现代 AI 计算,尤其在高效推理和低功耗场景中表现突出。

一文看懂 DeepSeek 开源项目第三弹,300 行代码揭示 V3/R1 推理效率背后的关键

爱范儿
爱范儿 · 2025-02-26T02:58:08Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码