小红花·文摘

Furiosa为何放弃矩阵乘法？张量收缩、TCP架构与新一代AI芯片设计全面解析

极道 ·

向量即一切：拆解ChatGPT底层的乘法加法与空间折叠

极道 ·

双重乘法 — v5的诞生

Lifelog — A Mythology-Driven Devlog ·

AlphaEvolve：AI 打破 56 年数学纪录，发现更快的矩阵乘法算法

Micropaper ·

模块化：在Blackwell上的矩阵乘法：第4部分 - 打破SOTA

Modular Blog ·

模块化：Blackwell上的矩阵乘法：第三部分 - 达到85%最先进性能的优化

Modular Blog ·

模块化：Blackwell上的矩阵乘法：第二部分 - 利用硬件特性优化矩阵乘法

Modular Blog ·

模块化：在Nvidia Blackwell上的矩阵乘法：第一部分 - 介绍

Modular Blog ·

乘法和除法指令使用较少，效率低。CMP指令用于比较操作数并设置标志位。乘法分为无符号和有符号，影响CF和OF标志位。除法也分为无符号和有符号，商和余数由隐含和显式操作数决定。逻辑运算指令包括AND、OR、NOT、XOR等，影响标志位。移位指令分为算术、逻辑和循环移位，影响CF和OF标志位。

8086汇编(16位汇编)学习笔记04.乘除和移位指令

FreeBuf网络安全行业门户 ·

机器之心数据服务现已上线，提供高效、稳定的数据获取服务，简化数据爬取流程。

矩阵乘法新突破！XX^T原来可以更快！RL助力搜索，世界纪录又被提升了5%

机器之心 ·

香港中文大学提出的新算法RXTX，通过结合机器学习与组合优化，优化矩阵乘法，节省5%-10%的能源和时间，尤其在大规模矩阵运算中表现优越。

矩阵乘法可以算得更快了！港中文10页论文证明：能源、时间均可节省

量子位 ·

谷歌DeepMind与陶哲轩等科学家合作推出AlphaEvolve，提升了矩阵乘法、芯片设计和AI训练的效率，并能解决300年前的几何难题，展现出广泛的应用潜力。

陶哲轩DeepMind梦幻联动，最强通用科学Agent来了！一口气解决芯片设计、矩阵乘法和300年几何难题

量子位 ·

在Triton中实现矩阵乘法及L2缓存优化

Nathan Chen ·

本研究解决了为大语言模型提供高效计算和能源消耗的特殊硬件架构的需求。我们详细评估了Tenstorrent Grayskull e75 RISC-V加速器在降精度线性代数核心上的性能，并与包括英特尔Sapphire Rapids处理器和两款NVIDIA GPU (V100和A100)在内的先进架构进行了比较。尽管NVIDIA...