Modular Blog ·

模块化：在Nvidia Blackwell上的矩阵乘法：第一部分 - 介绍

💡 原文英文，约3400词，阅读约需13分钟。

📝

内容提要

本系列博客将展示如何在Nvidia Blackwell GPU上编写高性能矩阵乘法内核，力求达到或超越cuBLAS的性能。第一部分介绍矩阵乘法的重要性及其在大型语言模型中的应用，并用Mojo语言实现简单的矩阵乘法。后续部分将逐步优化内核性能，利用Blackwell的新硬件指令。

🎯

🏷️

NVIDIA DRIVE AV提升车辆安全标准，梅赛德斯-奔驰CLA荣获欧洲NCAP最佳奖
AI驱动的驾驶辅助技术已成为标准配置，改变了车辆安全评估方式。梅赛德斯-奔驰CLA凭借NVIDIA DRIVE AV软件在2025年欧洲NCAP中表现最佳...
TikTok新所有者对你的信息流意味着什么
TikTok is officially under new ownership in the US, and that could spell big ...
CNCF: Kubernetes is ‘foundational’ infrastructure for AI
The latest (CNCF) Annual Cloud Native Survey has been released, and with “82...
卡西欧推出了一款复古游戏风格的采样器
Casio showed up to NAMM (CES for music gear nerds) this year with a prototype...
当前可购买的最佳即时相机
这篇文章介绍了几款最受欢迎的即时相机，包括富士、宝丽来和柯达等品牌。文章提到，选择即时相机时需要考虑照片质量、易用性、价格和适用性等因素。富士Instax...
从数据到收益：AI在现代市场推广流程中的角色
The discussion around AI often focuses on content creation, software developm...