量子位 ·

推理性能提升10倍！蚂蚁集团开源业内首个高性能扩散语言模型推理框架dInfer

💡 原文中文，约1300字，阅读约需4分钟。

📝

内容提要

蚂蚁集团推出高性能扩散语言模型推理框架dInfer，推理速度提升10倍，首次超越自回归模型。dInfer支持多种扩散模型，解决了推理效率的三大挑战，标志着扩散语言模型的实践应用。

🎯

关键要点

蚂蚁集团开源高性能扩散语言模型推理框架dInfer，推理速度提升10倍。
dInfer在代码生成任务HumanEval中实现了1011 Tokens/秒的推理速度，首次超越自回归模型。
扩散语言模型通过去噪过程实现文本生成，具有高度并行、全局视野和结构灵活的优势。
dInfer专为扩散语言模型设计，支持多种模型，包含四大核心模块。
dInfer在推理效率上解决了计算成本高、KV缓存失效和并行解码的三大挑战。
在与Fast-dLLM对比中，dInfer实现了10.7倍的推理速度提升。
dInfer连接前沿研究与产业落地，标志着扩散语言模型的实践应用迈向新阶段。

❓

延伸问答

dInfer框架的主要优势是什么？

dInfer框架通过去噪过程实现文本生成，具有高度并行、全局视野和结构灵活的优势。

dInfer在推理速度上相比于Fast-dLLM提升了多少？

dInfer在推理速度上相比于Fast-dLLM提升了10.7倍。

dInfer解决了哪些推理效率的挑战？

dInfer解决了计算成本高、KV缓存失效和并行解码三大挑战。

dInfer支持哪些扩散语言模型？

dInfer支持多种扩散语言模型，包括LLaDA、LLaDA-MoE和LLaDA-MoE-TD等。

dInfer的推理速度在HumanEval任务中达到了多少？

在HumanEval任务中，dInfer的推理速度达到了1011 Tokens/秒。

蚂蚁集团开源dInfer的目的是什么？

蚂蚁集团开源dInfer是为了邀请全球开发者与研究者共同探索扩散语言模型的潜能，构建高效、开放的AI新生态。

🏷️

继续阅读

流行的Go网页框架：开发者实用指南
根据2025年Go开发者调查，46%的Go开发者使用该语言构建网站。Go的标准库net/http提供了强大的基础，但许多开发者更倾向于使用框架以提高效率。...
开放媒体联盟发布多边形网格编码标准参考软件
开放媒体联盟（AOMedia）发布了多边形网格编码（PMC）标准的参考软件，旨在提高3D物体的压缩效率，预计比现有技术提高20%至40%。该软件供开发者测...
亚马逊在产品页面上推出 AI 语音对话功能
亚马逊推出了新的AI功能“加入聊天”，用户可以实时向卖家提问并获得语音回复，旨在节省顾客时间并提供关键产品信息，模拟与实体店员工的对话体验。用户可通过“收...
MediaKind分享多视图部署最新进展
MediaKind的云原生多视图功能在北美持续扩展，Charter为2026年NCAA篮球锦标赛推出该服务，用户可同时观看多场比赛。该功能在“疯狂三月”期...
微软推出新型嵌入式 AI 代理，加速迈向“智能代理联络中心”
微软在Dynamics 365联系中心新增了三个AI代理：客户协助代理、质量保证代理和服务运营代理。这些代理利用数据和上下文推理，自动处理客户咨询、监控对...
吨级重载新纪元开启｜大咖机器人全球首发“吨级重载机器马”
大咖机器人发布全球首款吨级重载机器人骐骥T1000，具备强大的承载力和全地形通行能力，广泛应用于安防、消防和工程等领域。该机器人推动行业从民用向工业转型，...