Modular Blog ·

模块化：Blackwell上的矩阵乘法：第三部分 - 达到85%最先进性能的优化

💡 原文英文，约3100词，阅读约需12分钟。

📝

内容提要

本文探讨了在NVIDIA Blackwell GPU上通过2SM技术和流水线优化矩阵乘法性能，达到360.2 TFLOPs，接近85%的最先进水平。采用多播和2xSM MMA优化共享内存，减少数据冗余，并通过流水线技术提升计算与内存传输的重叠，最终实现1429 TFLOPs，达到81%的目标。

🎯

🏷️

ABB机器人利用NVIDIA Omniverse大规模交付工业级物理AI
ABB与NVIDIA合作，将工业级物理AI引入工厂，通过整合NVIDIA Omniverse库到RobotStudio，实现高精度仿真，降低工程时间和部署...
大多数杰出AI项目壮观失败的技术飞跃
该文章介绍了一款AI性能优化工具包，提供混合精度、层融合和批量大小优化等多种方法，旨在提升模型推理和训练性能，降低内存使用和成本。
IIoT PostgreSQL性能范围
索引可以有效缓解IIoT查询问题。通过在tag_id和时间上设置索引，深层查询的时间可缩短至Log(t*r)。尽管数据库增大时查询速度仍会下降，但增加的时...
微调稀疏嵌入以优化电子商务搜索 | 第1部分：为何稀疏嵌入优于BM25
Modal提供无服务器的A100 GPU，消除闲置硬件和队列管理。Sentence Transformers v5引入SparseEncoder类，简化S...
针对电子商务搜索的稀疏嵌入微调 | 第2部分：在Modal上训练SPLADE
模型检查点保存在持久卷的/checkpoints/splade_standard/final。我们已在HuggingFace发布了训练好的模型splade...
电子商务搜索稀疏嵌入的微调 | 第三部分：评估与困难负样本
这是关于电子商务搜索稀疏嵌入微调系列文章的第三部分。在第二部分中，我们训练了SPLADE模型，现在将对该模型进行评估并进行困难负样本挖掘。