小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
AlphaEvolve:AI 打破 56 年数学纪录,发现更快的矩阵乘法算法

2025年,Google DeepMind的AlphaEvolve以48次标量乘法打破了1969年Strassen的矩阵乘法纪录。它不仅优化了矩阵运算,还解决了67个数学问题,展示了AI在数学领域的原创性和自我改进能力,预示着AI驱动的科学新时代的到来。

AlphaEvolve:AI 打破 56 年数学纪录,发现更快的矩阵乘法算法

Micropaper
Micropaper · 2026-03-01T01:45:00Z
模块化:在Blackwell上的矩阵乘法:第4部分 - 打破SOTA

本文介绍了在NVIDIA Blackwell上优化矩阵乘法内核的过程,重点在于集群启动控制(CLC)优化。通过使用持久内核和调度器,消除了共享内存和障碍初始化的开销,性能提升15%,达到1772 TFLOPs,超越当前的SOTA。此外,探讨了通过块交换提高L2缓存命中率,从而实现更高效的调度和性能。

模块化:在Blackwell上的矩阵乘法:第4部分 - 打破SOTA

Modular Blog
Modular Blog · 2025-09-19T00:00:00Z
模块化:Blackwell上的矩阵乘法:第三部分 - 达到85%最先进性能的优化

本文探讨了在NVIDIA Blackwell GPU上通过2SM技术和流水线优化矩阵乘法性能,达到360.2 TFLOPs,接近85%的最先进水平。采用多播和2xSM MMA优化共享内存,减少数据冗余,并通过流水线技术提升计算与内存传输的重叠,最终实现1429 TFLOPs,达到81%的目标。

模块化:Blackwell上的矩阵乘法:第三部分 - 达到85%最先进性能的优化

Modular Blog
Modular Blog · 2025-09-12T00:00:00Z
模块化:Blackwell上的矩阵乘法:第二部分 - 利用硬件特性优化矩阵乘法

本文探讨了Nvidia Blackwell GPU架构下的矩阵乘法优化,采用共享内存和循环分块技术,性能提升超过50倍。通过利用Tensor Memory和新指令集tcgen05.mma,进一步提高计算效率。尽管取得显著进展,但仍未达到cuBLAS的性能水平,后续将继续优化。

模块化:Blackwell上的矩阵乘法:第二部分 - 利用硬件特性优化矩阵乘法

Modular Blog
Modular Blog · 2025-09-05T00:00:00Z
模块化:在Nvidia Blackwell上的矩阵乘法:第一部分 - 介绍

本系列博客将展示如何在Nvidia Blackwell GPU上编写高性能矩阵乘法内核,力求达到或超越cuBLAS的性能。第一部分介绍矩阵乘法的重要性及其在大型语言模型中的应用,并用Mojo语言实现简单的矩阵乘法。后续部分将逐步优化内核性能,利用Blackwell的新硬件指令。

模块化:在Nvidia Blackwell上的矩阵乘法:第一部分 - 介绍

Modular Blog
Modular Blog · 2025-08-28T00:00:00Z

乘法和除法指令使用较少,效率低。CMP指令用于比较操作数并设置标志位。乘法分为无符号和有符号,影响CF和OF标志位。除法也分为无符号和有符号,商和余数由隐含和显式操作数决定。逻辑运算指令包括AND、OR、NOT、XOR等,影响标志位。移位指令分为算术、逻辑和循环移位,影响CF和OF标志位。

8086汇编(16位汇编)学习笔记04.乘除和移位指令

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-06-18T15:56:05Z

机器之心数据服务现已上线,提供高效、稳定的数据获取服务,简化数据爬取流程。

矩阵乘法新突破!XX^T原来可以更快!RL助力搜索,世界纪录又被提升了5%

机器之心
机器之心 · 2025-05-24T06:05:57Z

香港中文大学提出的新算法RXTX,通过结合机器学习与组合优化,优化矩阵乘法,节省5%-10%的能源和时间,尤其在大规模矩阵运算中表现优越。

矩阵乘法可以算得更快了!港中文10页论文证明:能源、时间均可节省

量子位
量子位 · 2025-05-18T05:54:32Z

谷歌DeepMind与陶哲轩等科学家合作推出AlphaEvolve,提升了矩阵乘法、芯片设计和AI训练的效率,并能解决300年前的几何难题,展现出广泛的应用潜力。

陶哲轩DeepMind梦幻联动,最强通用科学Agent来了!一口气解决芯片设计、矩阵乘法和300年几何难题

量子位
量子位 · 2025-05-15T01:53:30Z
在Triton中实现矩阵乘法及L2缓存优化

本文介绍了在Triton中实现矩阵乘法的方法,并进行了L2缓存优化。通过矩阵分块和利用快速的SRAM,减少对慢速DRAM的访问,从而显著提高性能。同时,优化L2缓存的使用,确保相邻线程共享数据,进一步提升计算效率。文中还提供了完整的Triton代码示例,以帮助读者理解实现过程。

在Triton中实现矩阵乘法及L2缓存优化

Nathan Chen
Nathan Chen · 2025-05-11T00:00:00Z

本研究解决了为大语言模型提供高效计算和能源消耗的特殊硬件架构的需求。我们详细评估了Tenstorrent Grayskull e75 RISC-V加速器在降精度线性代数核心上的性能,并与包括英特尔Sapphire Rapids处理器和两款NVIDIA GPU (V100和A100)在内的先进架构进行了比较。尽管NVIDIA...

评估Tenstorrent的RISC-V矩阵乘法加速能力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-09T00:00:00Z
创建简单计算器作为我的第一个项目

我开发了一个简单的计算器,支持乘法和平方根等功能。期待未来的新项目。

创建简单计算器作为我的第一个项目

DEV Community
DEV Community · 2025-05-01T02:01:12Z

该程序用于小学算术测试,包括加法、减法和乘法,适合注意力训练。它可移植,不依赖系统注册表,所有设置保存在INI文件中,支持多种运算类型和范围,测试后提供详细结果。完全免费,无广告或间谍软件。

Arithmetic – 一款算术学习小工具

老董日志
老董日志 · 2025-04-06T23:48:49Z

DeepSeek发布了开源矩阵乘法库DeepGEMM,专为英伟达Hopper GPU设计,支持FP8格式,提升AI训练效率。核心代码仅300行,简单易用,适用于多种AI架构,性能优于专家优化库。开发者可在GitHub获取代码。

DeepSeek AI开源周3/5:开源DeepGEMM通用矩阵乘法库提高效率

蓝点网
蓝点网 · 2025-03-21T16:42:05Z

本研究提出了一种新的双线性算子替代深度神经网络中的矩阵乘法,解决了现有技术在推理加速中的不足。该算子在不减少(实际上增加)可训练参数数量的情况下,显著降低了计算量并提高了准确性。通过与最先进的基准比较,验证了本方法在计算效率和性能上的双重优势。

不牺牲速度改变基础:一种适用于深度神经网络的GPU高效替代矩阵乘法的方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-15T00:00:00Z

本研究解决了传统特征融合方法忽视人脸识别中关键差异特征的问题。提出的MSConv模块通过多尺度混合卷积,同时提取明显特征和差异特征,提升了特征表示的有效性和模型的识别能力。实验结果表明,MSConv在综合这两类特征后,优于仅关注明显特征的模型。

MSConv:用于人脸识别的乘法和减法卷积

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-08T00:00:00Z
DeepSeek开源通用矩阵乘法库,300行代码加速V3、R1,R2被曝五月前问世

DeepGEMM 是一款开源的 FP8 GEMM 库,支持密集型和专家混合计算,在 Hopper GPU 上可实现超过 1350 TFLOPS 的性能。该库代码简洁,仅有 300 行,适合学习 FP8 矩阵乘法。DeepSeek 计划在 5 月前发布新一代 R2 模型,以提升代码生成能力。

DeepSeek开源通用矩阵乘法库,300行代码加速V3、R1,R2被曝五月前问世

机器之心
机器之心 · 2025-02-26T03:25:20Z

本文介绍了CUDA矩阵乘法的基本概念和优化方法,包括CUDA编程模型、基本矩阵乘法kernel及其优化版本,利用共享内存提升性能,并讨论了处理矩阵尺寸不满足BLOCK_SIZE整除的情况。

cuda矩阵乘法优化

李文举
李文举 · 2025-02-25T01:20:08Z
啊!DeepSeek-R1、o3-mini能解奥数题却算不了多位数乘法?

研究团队发现,通过“递归式自我提升”方法,Transformer模型在多位数乘法上显著提高了准确度,解决了长度泛化问题。实验表明,经过自我改进后,模型在9位数乘法上几乎完美,10位数乘法表现良好。

啊!DeepSeek-R1、o3-mini能解奥数题却算不了多位数乘法?

机器之心
机器之心 · 2025-02-14T02:24:45Z

本研究提出了一种基于随机最小二乘法值迭代的并行学习框架,旨在高效探索强化学习中的复杂环境。该框架在有限和无限视野环境中展现出多项式最坏情况遗憾界限,突显了并行学习的优势,显著提升了空间复杂性,可能推动多代理学习系统的发展。

通过随机最小二乘法值迭代的聚合状态并行学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-23T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码