量子位 ·

扩散模型成最快深度思考！告别自回归每秒1009个tokens，英伟达微软都投了

💡 原文中文，约2600字，阅读约需7分钟。

📝

内容提要

扩散模型Mercury 2成为最快的生成模型，生成速度达到每秒1009个tokens，比传统自回归模型快5倍。其并行优化机制提升了生成速度，并在性能和成本上具有优势。Inception Labs专注于扩散模型，致力于突破速度与成本的瓶颈。

🎯

🔎

Mercury 2的并行优化机制使其在生成速度上大幅领先于传统自回归模型。这种机制不仅提升了生成效率，还降低了延迟，使得用户在使用时能够获得更流畅的体验。对于需要快速响应的应用场景，如实时对话系统，Mercury 2无疑是一个理想选择。

尽管Mercury 2在速度和性能上表现优异，但市场竞争依然激烈。其他公司也在不断研发新模型，可能会对Mercury 2的市场份额造成威胁。此外，扩散模型的技术成熟度和应用范围仍需进一步验证，用户在选择时应关注其实际表现和适用场景。

Mercury 2在生成速度提升的同时，保持了较高的性价比。其输入和输出的价格设置相对合理，适合大规模应用。然而，用户在使用时仍需考虑整体成本，尤其是在处理大量数据时，确保其经济性与性能的平衡。

❓

Mercury 2的生成速度达到每秒1009个tokens。

Mercury 2比传统自回归模型快5倍，并且在性能和成本上具有优势。

Mercury 2采用并行优化机制，能够同时处理多个token，从而提高生成速度。

输入价格为每百万token 0.25美元，输出价格为每百万token 0.75美元。

Mercury 2背后的公司是Inception Labs，成立于2024年。

Mercury 2的API全面兼容OpenAI标准。

🏷️