为什么DeepSeek在规模化部署时成本低廉，但在本地运行时却成本高昂？

我有点后悔没有给这篇文章起一个不同的标题——它其实不是关于在自己的电脑上运行模型。而是关于为个人使用运行模型，假设你拥有所有GPU（即批处理/吞吐量权衡）。

DeepSeek在规模化部署时成本较低，但本地运行成本较高，因为其推理服务需要在吞吐量与延迟之间进行权衡。GPU在处理大矩阵乘法时效率高，批处理可以提升吞吐量，但会增加延迟。混合专家模型需要高批量以避免低效，导致个人设备运行困难。

DeepSeek GPU 吞吐量成本混合专家模型