机器之心 ·

Token化一切，甚至网络！北大&谷歌&马普所提出TokenFormer，Transformer从来没有这么灵活过！

💡 原文中文，约4600字，阅读约需11分钟。

📝

内容提要

AIxiv报道了新一代通用网络结构TokenFormer，该模型通过将参数视为Token，提升了Transformer的灵活性和可扩展性。TokenFormer支持增量扩展，显著降低计算开销，并在语言和视觉建模中表现优异，研究团队期望其在多个领域得到更广泛应用。

🎯

🔎

TokenFormer通过将模型参数视为Token，打破了传统数据与模型的界限。这种创新使得模型在增量扩展时能够有效重用已有的训练成果，显著降低计算资源的消耗。对于需要频繁更新或调整的应用场景，TokenFormer提供了一种高效的解决方案。

TokenFormer不仅在语言和视觉建模中表现优异，还在稀疏推理和参数高效微调等领域展现出潜在贡献。这种通用网络结构的灵活性使其能够适应多种任务，未来可能在智能设备和云端协作中发挥重要作用，推动AI技术的进一步发展。

TokenFormer被视为专家混合（MoE）框架的极致实例化，每组键-值参数对可视为独立专家。这种设计不仅提高了模型的计算效率，还可能在处理复杂任务时提供更强的适应能力，值得关注其在实际应用中的表现。

❓

TokenFormer的核心创新是Token-Parameter Attention（Pattention）层，它通过引入可训练的Token作为模型参数，增强了输入Token与参数Token之间的交互。

TokenFormer支持增量扩展，允许基于训练好的模型增量扩展新的模型，从而显著降低计算开销。

实验结果显示，TokenFormer在语言建模和视觉建模上均优于传统的Transformer模型。

TokenFormer通过将模型参数视为Token，允许在已有模型基础上增量添加新的参数，从而实现增量式模型扩展。

TokenFormer可以在设备-云协作中充当云端知识库，为设备端的大语言模型提供支持，利用云端执行密集任务。

TokenFormer完全基于注意力机制，这使得其在Token-Parameter交互中具备可解释性特性，增强了模型的透明度。

🏷️