在开发者的MacBook上对DeepSeek R1进行基准测试

在开发者的MacBook上对DeepSeek R1进行基准测试

💡 原文英文,约2800词,阅读约需10分钟。
📝

内容提要

本文分析了在MacBook M2 Pro上运行DeepSeek R1 Gwen 7B模型的性能。测试显示,单请求速度为53.1 tokens/s,19个并行请求降至9.1 tokens/s,256个请求仅为6.3 tokens/s,超过19个请求会显著延长响应时间,影响用户体验。整体而言,该模型适合日常任务,但在商业应用中表现不足。

🎯

关键要点

  • 在MacBook M2 Pro上运行DeepSeek R1 Gwen 7B模型的性能分析。
  • 单请求速度为53.1 tokens/s,19个并行请求降至9.1 tokens/s,256个请求仅为6.3 tokens/s。
  • 超过19个请求会显著延长响应时间,影响用户体验。
  • 该模型适合日常任务,但在商业应用中表现不足。
  • 测试使用了多轮并行HTTP请求,监测了多个性能指标。
  • 等待时间(TTFB)在25个并行请求时急剧上升,256个请求时达到50分钟。
  • 最大吞吐量为55 tokens/s,19个并行请求时为9.1 tokens/s,256个请求时为6.3 tokens/s。
  • 合理的吞吐量为19.9 tokens/s,最多可支持4个并行请求。
  • 超过19个并行请求时,等待时间变得不可接受。
  • 该模型在日常任务中表现良好,但不适合商业API服务器。

延伸问答

DeepSeek R1 Gwen 7B模型在MacBook M2 Pro上的单请求速度是多少?

单请求速度为53.1 tokens/s。

在使用DeepSeek R1时,多少个并行请求会影响用户体验?

超过19个并行请求会显著延长响应时间,影响用户体验。

DeepSeek R1在商业应用中的表现如何?

该模型在商业应用中表现不足,适合日常任务。

合理的吞吐量是多少,最多可以支持多少个并行请求?

合理的吞吐量为19.9 tokens/s,最多可支持4个并行请求。

在256个并行请求时,DeepSeek R1的响应速度是多少?

在256个请求时,响应速度仅为6.3 tokens/s。

DeepSeek R1模型的最大吞吐量是多少?

最大吞吐量为55 tokens/s。

➡️

继续阅读