DEV Community ·

探讨np.einsum的性能

💡 原文英文，约1100词，阅读约需4分钟。

📝

内容提要

在未开启优化标志时，np.einsum的速度明显慢于np.matmul，尤其在矩阵乘法中。开启优化后，np.einsum的速度显著提升，接近np.matmul，原因是优化时调用了tensordot，利用了BLAS加速。

🎯

❓

在未开启优化标志时，np.einsum的速度明显慢于np.matmul，尤其在矩阵乘法中。

开启优化后，np.einsum的速度显著提升，接近np.matmul。

优化标志用于确定操作数的结合顺序，并在优化时调用tensordot以利用BLAS加速。

即使在只有两个操作数的情况下，开启优化后np.einsum仍然比未优化时快。

np.einsum通过创建中间数组和寻找最佳收缩路径来减少计算复杂度，从而提高性能。

tensordot在优化为真时被调用，以加速矩阵乘法操作，利用BLAS进行优化。

🏷️

如何优化AI对话开发效果和测试开发质量？
AI对话产品的优化与测试至关重要。需建立可量化的评估体系，结合技术指标与用户体验指标。优化重点包括响应延迟、意图理解和对话体验。测试应覆盖真实场景，确保系...
谷歌Gemma 4 12B的性能几乎与26B基准相当——并可在您的笔记本电脑上运行
谷歌推出了Gemma 4 12B模型，旨在为标准笔记本电脑提供高性能的多模态智能。该模型内存占用比Gemma 4 26B小一半，但性能接近，支持本地运行，...
基于 Amazon ECS Fargate 和 Graviton 构建企业级多租户 AI Agent 平台：OpenClaw + Hermes 双 Agent 实践
AI Agent 从实验走向生产，企业需要让不同团队各跑独立实例且互不可见。本文介绍基于 Amazon ECS Fargate + Graviton 的轻...
第28期大数据师资培训班报名主页（Hadoop+Spark+实战案例班，暑假，泉州，2026年8月6日-13日）
第28期大数据师资培训班报名主页（Hadoop+Spark+实战案例班，暑假，泉州，2026年8月6日-13日 […]
Article Series: Securing the AI Stack: From Model to Production
This series provides your roadmap for the machine age, exploring how to move ...
Google LiteRT-LM Speeds Up Local Inference Up to 2.2x With Gemma 4 Multi-Token Prediction
LiteRT-LM brings native support for Gemma 4 Multi-Token Prediction (MTP) draf...