The Mozilla Blog ·

在CPU上运行推理的最佳硬件并发数是多少？

💡 原文英文，约1600词，阅读约需6分钟。

📝

内容提要

在Firefox AI Runtime中，通过多线程加速CPU执行，但过多线程会降低性能。合理利用现代CPU的高性能核心可提高效率。使用navigator.hardwareConcurrency获取逻辑核心数并非最佳选择，需考虑系统活动。我们开发了新API以优化线程数，确保不同设备上实现最佳性能。

🎯

🔎

现代CPU通常包含高性能核心和效率核心。高性能核心适合处理重负载任务，而效率核心则用于后台任务。在进行机器学习推理时，充分利用高性能核心并留出空间给效率核心，可以提高整体性能，避免资源争用。

虽然多线程可以加速CPU执行，但过多线程可能导致性能下降。使用navigator.hardwareConcurrency获取逻辑核心数并不总是最佳选择，需结合系统活动和核心类型进行优化，以避免线程过载和内存使用过高的问题。

新开发的MLUtils.getOptimalCPUConcurrency函数通过考虑物理核心数量来优化线程数，能够更好地适应不同设备的性能需求。这一方法比简单使用逻辑核心数更能有效提升推理性能，尤其是在多种硬件配置下。

❓

在Firefox AI Runtime中，通过创建多个线程并在多个CPU核心上并行分配负载来加速CPU执行。

使用navigator.hardwareConcurrency获取逻辑核心数可能导致线程过载，因为它不考虑当前系统的活动情况。

可以使用MLUtils.getOptimalCPUConcurrency函数，通过考虑物理核心数量来优化线程数，以避免过多线程导致的性能下降。

高性能核心适合处理重负载任务，而效率核心则处理后台任务，合理利用这两种核心可以提高整体性能。

在高负载情况下，应该充分利用高性能核心，同时留出空间给效率核心处理后台任务，以避免性能下降。

未来可能会探讨使用GPU或专用单元（如NPU）来分担机器学习任务，从而改进线程计算。

🏷️