DEV Community ·

在开发者的MacBook上对DeepSeek R1进行基准测试

Q: DeepSeek R1模型的最大吞吐量是多少？

最大吞吐量为55 tokens/s。

💡 原文英文，约2800词，阅读约需10分钟。

📝

内容提要

本文分析了在MacBook M2 Pro上运行DeepSeek R1 Gwen 7B模型的性能。测试显示，单请求速度为53.1 tokens/s，19个并行请求降至9.1 tokens/s，256个请求仅为6.3 tokens/s，超过19个请求会显著延长响应时间，影响用户体验。整体而言，该模型适合日常任务，但在商业应用中表现不足。

🎯

关键要点

在MacBook M2 Pro上运行DeepSeek R1 Gwen 7B模型的性能分析。
单请求速度为53.1 tokens/s，19个并行请求降至9.1 tokens/s，256个请求仅为6.3 tokens/s。
超过19个请求会显著延长响应时间，影响用户体验。
该模型适合日常任务，但在商业应用中表现不足。
测试使用了多轮并行HTTP请求，监测了多个性能指标。
等待时间（TTFB）在25个并行请求时急剧上升，256个请求时达到50分钟。
最大吞吐量为55 tokens/s，19个并行请求时为9.1 tokens/s，256个请求时为6.3 tokens/s。
合理的吞吐量为19.9 tokens/s，最多可支持4个并行请求。
超过19个并行请求时，等待时间变得不可接受。
该模型在日常任务中表现良好，但不适合商业API服务器。

🔎

延伸解读

性能瓶颈分析

在测试中，DeepSeek R1模型的性能随着并行请求数量的增加而显著下降。超过19个并行请求时，响应时间急剧上升，用户体验受到严重影响。这表明在高并发场景下，该模型并不适合用于实时交互应用，开发者需谨慎评估其在实际应用中的适用性。

适用场景与限制

尽管DeepSeek R1在单请求情况下表现良好，达到53.1 tokens/s，但在商业应用中，其性能不足以支持高并发需求。适合日常任务的使用，但对于需要快速响应的商业API服务器，开发者应考虑其他更高效的解决方案。

用户体验的重要性

测试结果显示，用户对应用的等待时间非常敏感。理想的最大等待时间应控制在10秒以内，而在256个并行请求时，等待时间可达50分钟，这显然不可接受。因此，开发者在设计应用时需重视响应速度，以提升用户满意度。

❓

延伸问答

DeepSeek R1 Gwen 7B模型在MacBook M2 Pro上的单请求速度是多少？

单请求速度为53.1 tokens/s。

在使用DeepSeek R1时，多少个并行请求会影响用户体验？

超过19个并行请求会显著延长响应时间，影响用户体验。

DeepSeek R1在商业应用中的表现如何？

该模型在商业应用中表现不足，适合日常任务。

合理的吞吐量是多少，最多可以支持多少个并行请求？

合理的吞吐量为19.9 tokens/s，最多可支持4个并行请求。

在256个并行请求时，DeepSeek R1的响应速度是多少？

在256个请求时，响应速度仅为6.3 tokens/s。

DeepSeek R1模型的最大吞吐量是多少？