为什么DeepSeek在规模化部署时成本低廉,但在本地运行时却成本高昂? 我有点后悔没有给这篇文章起一个不同的标题——它其实不是关于在自己的电脑上运行模型。而是关于为个人使用运行模型,假设你拥有所有GPU(即批处理/吞吐量权衡)。 DeepSeek在规模化部署时成本较低,但本地运行成本较高,因为其推理服务需要在吞吐量与延迟之间进行权衡。GPU在处理大矩阵乘法时效率高,批处理可以提升吞吐量,但会增加延迟。混合专家模型需要高批量以避免低效,导致个人设备运行困难。 DeepSeek GPU 吞吐量 成本 混合专家模型