💡
原文英文,约2800词,阅读约需10分钟。
📝
内容提要
本文分析了在MacBook M2 Pro上运行DeepSeek R1 Gwen 7B模型的性能。测试显示,单请求速度为53.1 tokens/s,19个并行请求降至9.1 tokens/s,256个请求仅为6.3 tokens/s,超过19个请求会显著延长响应时间,影响用户体验。整体而言,该模型适合日常任务,但在商业应用中表现不足。
🎯
关键要点
- 在MacBook M2 Pro上运行DeepSeek R1 Gwen 7B模型的性能分析。
- 单请求速度为53.1 tokens/s,19个并行请求降至9.1 tokens/s,256个请求仅为6.3 tokens/s。
- 超过19个请求会显著延长响应时间,影响用户体验。
- 该模型适合日常任务,但在商业应用中表现不足。
- 测试使用了多轮并行HTTP请求,监测了多个性能指标。
- 等待时间(TTFB)在25个并行请求时急剧上升,256个请求时达到50分钟。
- 最大吞吐量为55 tokens/s,19个并行请求时为9.1 tokens/s,256个请求时为6.3 tokens/s。
- 合理的吞吐量为19.9 tokens/s,最多可支持4个并行请求。
- 超过19个并行请求时,等待时间变得不可接受。
- 该模型在日常任务中表现良好,但不适合商业API服务器。
➡️