dotNET跨平台 ·

何恺明首个语言模型：不走GPT老路，105M参数干翻主流

💡 原文中文，约3500字，阅读约需9分钟。

📝

内容提要

何恺明团队推出了首个扩散语言模型ELF，采用105M参数和45B训练token，成功超越主流模型。ELF通过在连续空间中去噪生成离散token，显著提高生成速度和质量，展示了小规模模型的高效输出，降低了训练成本，未来有望推动AI生成速度提升。

🎯

❓

ELF通过在连续空间中去噪生成离散token，显著提高了生成速度和质量，采用105M参数和45B训练token，成功超越主流模型。

何恺明团队认为，扩散语言模型在理论上可以并行生成文本，速度远超自回归模型，因此选择了这一技术路线。

ELF只用了十分之一的训练数据和三十二分之一的采样步数，生成困惑度达到24，全面优于离散派模型。

ELF在条件生成任务中表现优异，德→英翻译任务中取得26.4 BLEU，超过了自回归基线和其他离散派模型。

ELF的设计流程包括将词转换为连续向量，在连续空间中去噪，最后再转换为token，去噪和解码由同一网络完成。

ELF的并行解码能力有望将AI生成速度提升5-10倍，可能改变未来AI的响应速度。

🏷️

8×8 AI Studio 新增 OpenAI 的 GPT Realtime 2，以支持生产环境中的语音代理
8×8公司宣布其AI Studio支持OpenAI的GPT Realtime 2，提升实时语音客服的可靠性和对话转录准确性。新模式增强推理能力，优化多步骤...
Analogue 3D终于支持存档功能
Analogue has released a new firmware update for its Analogue 3D console that ...
Kubernetes v1.36：Cloud Controller Manager中的路由同步新指标
Kubernetes v1.36引入了新的alpha计数器metric route_controller_route_sync_total，用于Cloud...
OpenAI不断调整高管以争夺AI代理战
OpenAI最近重组，任命Greg Brockman为产品负责人，专注于开发统一的AI代理平台。公司计划合并ChatGPT和Codex，以提升产品价值，迎...
Kubernetes v1.36：混合版本代理升级至Beta
Kubernetes 1.36中，混合版本代理（MVP）功能从Alpha升级为Beta，默认启用。MVP确保在集群升级时，API请求能正确路由到支持新资源...
英特尔最快的桌面处理器之一降价50美元
英特尔最新的Core Ultra 7 270K Plus处理器被称为“最快的游戏桌面处理器”，其性能超越了AMD的高端Ryzen 9000系列和Core ...