Modular Blog ·

模块化：Blackwell上的矩阵乘法：第二部分 - 利用硬件特性优化矩阵乘法

💡 原文英文，约6200词，阅读约需23分钟。

📝

内容提要

本文探讨了Nvidia Blackwell GPU架构下的矩阵乘法优化，采用共享内存和循环分块技术，性能提升超过50倍。通过利用Tensor Memory和新指令集tcgen05.mma，进一步提高计算效率。尽管取得显著进展，但仍未达到cuBLAS的性能水平，后续将继续优化。

🎯

🏷️

ABB机器人利用NVIDIA Omniverse大规模交付工业级物理AI
ABB与NVIDIA合作，将工业级物理AI引入工厂，通过整合NVIDIA Omniverse库到RobotStudio，实现高精度仿真，降低工程时间和部署...
苹果iPad Air M4评测：速度略有提升
M4 Air在CPU性能上比M3 Air快20-25%，GPU性能快10-15%。尽管性能提升明显，但实际使用中差异不大，仅在Spotlight搜索中M4...
微调稀疏嵌入以优化电子商务搜索 | 第1部分：为何稀疏嵌入优于BM25
Modal提供无服务器的A100 GPU，消除闲置硬件和队列管理。Sentence Transformers v5引入SparseEncoder类，简化S...
针对电子商务搜索的稀疏嵌入微调 | 第2部分：在Modal上训练SPLADE
模型检查点保存在持久卷的/checkpoints/splade_standard/final。我们已在HuggingFace发布了训练好的模型splade...
电子商务搜索稀疏嵌入的微调 | 第三部分：评估与困难负样本
这是关于电子商务搜索稀疏嵌入微调系列文章的第三部分。在第二部分中，我们训练了SPLADE模型，现在将对该模型进行评估并进行困难负样本挖掘。
电子商务搜索中的稀疏嵌入微调 | 第4部分：专业化与泛化
本文探讨了电子商务搜索中的稀疏嵌入微调，分析了专业化与泛化的权衡。研究表明，专注于特定领域的微调在单一零售商中效果最佳，而多领域训练则在多个零售商中更具泛...