量子位 ·

实测小米最快1T大模型：吞吐量每秒1000+ Tokens，Vibe Coding七秒交付

💡 原文中文，约5300字，阅读约需13分钟。

📝

内容提要

小米推出了MiMo-V2.5-Pro-UltraSpeed模型，具备1T参数和1000+ TPS的推理速度，突破了GPU的性能限制。该模型在全栈开发任务中表现优异，能够快速生成高质量的复杂应用，推动了大模型的商业化进程。

🎯

🔎

小米的MiMo-V2.5-Pro-UltraSpeed模型以1000+ TPS的推理速度，打破了行业对大模型的性能限制。这一突破不仅提升了模型的实用性，还可能推动实时业务的广泛应用，如金融风控和广告竞价等领域，改变传统依赖小模型或规则引擎的局面。

小米在MiMo-V2.5-Pro-UltraSpeed中实施的全链路推理优化，不仅提升了速度，还为未来模型的迭代提供了基础。这种优化能力可以在不同的业务场景中复用，降低后续开发的成本和时间，形成良性循环，进一步推动大模型的商业化进程。

MiMo-V2.5-Pro-UltraSpeed在保持1T参数的同时，实现了高吞吐量，挑战了行业普遍认为的“快、强、通用GPU无法兼得”的观点。这一平衡的实现，意味着在追求速度的同时，模型的智能水平并未降低，为开发者提供了更高效的工具。

❓

该模型具备1T参数和1000+ TPS的推理速度，支持1M上下文，突破了GPU性能限制。

通过全链路推理优化和Hybrid SWA架构，减少计算压力和带宽需求，实现高吞吐量。

MiMo-V2.5-Pro-UltraSpeed能够快速生成高质量的复杂应用，表现优异。

该模型的推理速度和全链路优化推动了大模型的商业化进程，适用于实时业务场景。

通过引入FP4量化技术，压缩并行的Expert模块参数，减小显存占用和读写压力。

适用于高频交易、实时反欺诈、广告竞价等对延迟敏感的实时业务场景。

🏷️