量子位 ·

扩散模型成最快深度思考！告别自回归每秒1009个tokens，英伟达微软都投了

💡 原文中文，约2600字，阅读约需7分钟。

📝

内容提要

扩散模型Mercury 2成为最快的生成模型，生成速度达到每秒1009个tokens，比传统自回归模型快5倍。其并行优化机制提升了生成速度，并在性能和成本上具有优势。Inception Labs专注于扩散模型，致力于突破速度与成本的瓶颈。

🎯

关键要点

扩散模型Mercury 2成为最快的生成模型，生成速度达到每秒1009个tokens。
Mercury 2的生成速度比传统自回归模型快5倍，采用并行优化机制。
Mercury 2在多个基准测试中表现优异，得分普遍高于速度较慢的模型。
Mercury 2支持128K上下文，输入和输出价格具有较高性价比。
Mercury 2背后的公司Inception Labs专注于扩散模型，致力于突破速度与成本的瓶颈。
Inception Labs的创始人Stefano Ermon早在2019年开始研究扩散模型，推动其在文本和代码生成中的应用。
Mercury 2的API兼容OpenAI标准，目前暂无开源计划。

🏷️

继续阅读

微软阻止用户通过修改注册表启用Windows 11原生NVMe驱动程序提升SSD性能
微软禁止用户通过注册表启用Windows 11的原生NVMe驱动程序以提升SSD性能。尽管测试版已禁用此功能，用户仍可通过ViveTool启用。微软计划在...
英伟达首席执行官黄仁勋表示‘我认为我们已经实现了AGI’
AGI（人工通用智能）是一个模糊的概念，近年来在科技界和公众中引发广泛讨论。科技领袖们试图用更清晰、实用的术语来替代它。AGI在OpenAI与微软等公司的...
Qt 6.11中QML工具的新特性，第三部分：上下文属性支持
Qt 6.11即将发布，新增对上下文属性的支持，允许将C++对象嵌入QML。尽管如此，存在可重用性差和工具支持有限的问题。qmllint现支持配置上下文属...
Anthropic的Claude代码和协作工具可以控制你的电脑
该功能在与Dispatch配合时表现良好，支持从手机向Claude桌面应用分配任务。但复杂任务有时需要重试，屏幕操作速度较慢。公司希望通过早期分享了解优缺点。
Databricks宣布Lakewatch：新型开放式智能SIEM
Lakewatch是一款新型开放SIEM，旨在帮助组织抵御复杂网络攻击。它将安全、IT和业务数据整合在一个受控环境中，支持AI检测与响应。Lakewatc...
一加 15T 发布：顶配性能加长续航，小屏旗舰的新模板
一加15T于3月24日发布，起售价4299元。该机配备7500mAh电池、6.32英寸165Hz屏幕和高通骁龙8至尊版处理器，支持100W快充，搭载双50...

扩散模型成最快深度思考！告别自回归每秒1009个tokens，英伟达微软都投了

内容提要

关键要点

标签

继续阅读