Modular Blog ·

Modular：在短短14天内实现AMD MI355的尖端性能

💡 原文英文，约1800词，阅读约需7分钟。

📝

内容提要

在八月底，AMD与TensorWave合作，计划在9月16日的媒体技术日展示MAX在MI355上的性能。Modular团队凭借多年技术积累，成功实现高效的AI硬件启用，并在演示中超越了AMD的优化版本，展示了卓越的性能和可移植性。

🎯

❓

Modular团队利用多年技术积累和架构设计，提前进行代码生成测试，并在MI355硬件到达后迅速进行优化，最终在两周内完成了高效的AI硬件启用。

MI355的新特性包括FP32到BF16的转换指令和更大的张量核心瓦片大小，这些特性优化了matmul等操作，提高了计算效率。

Modular的使命是快速、可移植和通用的AI硬件启用，旨在支持各种硬件架构。

团队在启用过程中遇到硬件配置错误和Kubernetes集成中缺少GPU操作符的问题，但最终克服了这些挑战，取得了良好的性能结果。

MAX在多个工作负载中超越了AMD优化的vLLM分支，性能提升高达2.2倍，展示了其卓越的性能。

团队通过分析基准测试结果，优化matmul实现，并利用自动化工具进行性能分析，从而实现了显著的性能提升。

🏷️

MySQL性能：OpenSSL-3.5.5评估
本文评估了OpenSSL-3.5.5在MySQL CPU密集型OLTP工作负载下的性能，重点分析了SSL开启与关闭对性能的显著影响。测试使用Sysbenc...
AI对CPAN贡献的版权问题
开源社区正在讨论是否接受AI辅助的贡献。CPAN的维护者对AI贡献持谨慎态度，主要担心质量和版权问题。尽管AI可能产生不合规的代码，但版权风险并不新颖，早...
公共预览：Azure Test Plans中的手动测试实际结果
Azure Test Plans推出了实际结果（AR）功能，支持手动测试，记录每个测试步骤的准确结果，提升可追溯性和合规性。用户可在测试计划中配置AR字段...
现在Meta将追踪员工在计算机上的操作，以训练其人工智能代理
Meta公司正在使用名为“模型能力计划”（MCI）的工具，记录员工的鼠标活动、按键和截图，以训练其人工智能模型。这些数据将帮助AI更好地模拟人类的计算机操...
Dropbox Collaborates with GitHub to Reduce Monorepo Size from 87GB to 20GB
Dropbox reduced its backend monorepo from 87GB to 20GB by optimizing Git delt...
学习量子机器学习的五个GitHub仓库
量子机器学习结合了量子计算与机器学习的理念，许多研究者正在探索量子计算对机器学习的帮助。文章介绍了五个有用的开源项目，涵盖基础知识、研究论文、实践项目和构...