量子位 ·

何恺明首个语言模型：105M参数，不走GPT自回归老路

💡 原文中文，约4600字，阅读约需11分钟。

📝

内容提要

何恺明团队推出了新的扩散语言模型ELF，该模型采用连续的embedding空间进行文本生成，显著降低了生成困惑度。ELF在训练和采样效率上表现优异，仅用105M参数和45B训练token，生成质量超过主流模型。该模型首次实现了连续与离散的有效结合，推动了扩散语言模型的发展。

🎯

❓

ELF模型首次实现了连续与离散的有效结合，通过在连续的embedding空间中进行文本生成，直到最后一步才进行离散化。

ELF模型在生成质量上超过了主流模型，生成困惑度压到了24，显示出更自然的文本生成能力。

ELF模型使用了105M参数和45B训练token。

ELF模型在训练token数量上比主流模型少近10倍，采样步数也更少，表现出优异的训练和采样效率。

ELF模型通过将去噪过程留在连续embedding空间，直到最后一步才进行离散化，从而解决了连续与离散对齐的问题。

ELF模型在多个条件生成任务上表现稳定，超越了现有的扩散语言模型和自回归基线。

🏷️

GPT-5.5、GPT-5.4和Codex已在Amazon Bedrock上正式可用
亚马逊云科技宣布，GPT-5.5、GPT-5.4和Codex已在Amazon Bedrock上线，企业可直接调用这些大模型以支持复杂任务，计费标准与Ope...
GPT Realtime 2.0实时语音模型17个创业方向
GPT Realtime 2.0模型实现了边听边思考的实时智能应用，提供了17个创业机会，如实时合同谈判助手、语音控制交易终端和多语种活动主持人。这些应用...
Direct Connect (DX) 迁移最佳实践
本文介绍了AWS Direct Connect迁移的最佳实践，包括设计考虑、迁移步骤和备份方案。用户需选择新站点、配置虚拟接口、测试流量，并在维护窗口切换...
记一次 .NET 某注塑模具系统 CPU爆高分析 - 一线码农
最近一位朋友遇到CPU使用率飙升的问题，分析dump文件后发现程序仅使用两个核心，导致负载过高。调查显示，GC触发是由于大对象堆（LOH）满，主要原因是将...
流畅多人游戏背后的基础设施
实时多人游戏的流畅体验依赖于低延迟、专用服务器和内容分发网络。延迟超过200毫秒会显著影响用户体验。现代游戏采用云服务和混合架构以提升性能，同时确保安全性...
在你的鼻孔尿尿
上次回老家的时候，让二姐帮忙去讨要一只小猫咪。转眼间已经一个月了，那时候去看的小猫咪也已经一个月大了。如果真的 […]