量子位 ·

基于能量的Transformer横空出世！全面超越主流模型35%

💡 原文中文，约2100字，阅读约需5分钟。

📝

内容提要

弗吉尼亚大学团队提出的EBT（基于能量的Transformer）架构，通过能量机制在多个维度上超越Transformer++，提升约35%。EBT模拟人类思维，动态优化思考步数，展现出良好的扩展性和泛化能力。

🎯

关键要点

弗吉尼亚大学团队提出EBT（基于能量的Transformer）架构，提升约35%。
EBT通过能量机制在多个维度上超越Transformer++，包括数据量、批次大小、参数量等。
EBT模拟人类思维，动态优化思考步数，具备“想清楚再回答”的能力。
EBT基于能量最小化过程，通过梯度下降优化预测，能量函数验证输入数据一致性。
研究者提出两种EBT变体：单向EBT和双向EBT，分别用于自回归建模和填充建模。
EBT在六个不同维度上均优于Transformer++，成为多维度超越的首个模型。
随着训练时间增加，EBT的思考能力不断提升，性能提升可达10%-14%。
EBT在视频任务中同样表现优异，超越了扩散模型，减少了99%的前向计算次数。
EBT为系统2思维的实现提供了新思路，展现出良好的扩展性和泛化能力。

❓

延伸问答

EBT架构的主要优势是什么？

EBT架构在多个维度上超越了Transformer++，提升约35%，并具备良好的扩展性和泛化能力。

EBT是如何模拟人类思维的？

EBT通过能量最小化过程和梯度下降优化，动态决定思考步数，具备“想清楚再回答”的能力。

EBT的两种变体分别是什么？

EBT有单向EBT和双向EBT，单向EBT用于自回归建模，双向EBT支持填充和掩码建模。

EBT在视频任务中的表现如何？

EBT在视频任务中表现优异，超越了扩散模型，并减少了99%的前向计算次数。

EBT的训练方法有哪些？

EBT的训练方法主要有对比学习法和正则化方法，通过隐式正则化能量空间避免维度灾难。

EBT的思考能力如何随着训练时间变化？

随着训练时间增加，EBT的思考能力不断提升，性能提升可达10%-14%。

🏷️

继续阅读

Nvidia最新模型现已上线
Nvidia发布了Nemotron 3 Ultra模型，拥有5500亿参数，支持高达100万标记的上下文窗口。该模型速度显著提升，能节省用户30%的成本。...
Mate Security的Asaf Wiener让每位后端工程师成为模型路由器。他这样做是正确的。
Mate Security的CEO Asaf Wiener强调AI原生公司的成本管理重要性。他通过细分AI模型的成本，确保每个后端工程师参与模型选择和评估...
Galaxea G0.5——升级“VLA自回归建模”范式：摒弃VLM上添加动作专家的模式，而是构建统一模型，用一套权重，在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)
星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列，通过共享权重实现推理与动作的耦合，提升机器人控制效率。该模型采用可学习的动作分词器和...
谷歌发布并开源Gemma 4 12B版多模态模型可在16GB内存/显存上运行
谷歌发布了Gemma 4 12B多模态模型，支持文本、图片、视频和音频输入，能够在仅16GB内存的消费级设备上运行。该模型采用无编码器架构，降低延迟并简化...
Google DeepMind 发布 Gemma 4 12B：一款无需编码器的多模态模型，支持原生音频
Google DeepMind 发布了 Gemma 4 12B，这是一个无编码器的多模态模型，支持文本、图像、音频和视频处理。该模型在消费级笔记本电脑上运...
网络设备曾经看起来像小型笔记本电脑，但现在它们变得更加个性化
近年来，网络设备（cyberdecks）向个性化发展，许多DIY爱好者在社交媒体上展示将计算机组件隐藏在手袋、玩具等物品中的创意。这些迷你Linux计算机...