Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

机器之心 ·

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

💡 原文中文，约4700字，阅读约需12分钟。

📝

内容提要

BLT（字节潜在 Transformer）通过直接建模原始字节流，取代传统的基于 token 的架构，展现出更高效的计算能力和更强的鲁棒性。研究表明，BLT 在处理多样化和噪声输入时表现优越，并在推理过程中节省了高达50%的计算资源，为大型语言模型开辟了新方向。

🎯

关键要点

BLT（字节潜在 Transformer）通过直接建模原始字节流，取代传统的基于 token 的架构，展现出更高效的计算能力和更强的鲁棒性。
BLT 在处理多样化和噪声输入时表现优越，并在推理过程中节省了高达50%的计算资源。
该研究提出了一种新的 LLM 思想，挑战传统的 tokenization 方法，克服其固有的局限性。
BLT 通过动态分组字节为 patch，根据信息复杂度分配计算资源，提高计算效率。
BLT 在推理过程中与基于 token 的模型（如 LLaMA）相比，性能相当或更好，同时节省计算资源。
BLT 在字符级理解、噪声输入和长尾泛化任务中表现出色，超越了基于 token 的架构。
该研究展示了在没有固定词汇表的情况下，从字节级别端到端地大规模训练模型的可能性。
BLT 模型为扩展大型语言模型开启了新维度，能够在保持固定推理预算的同时扩展模型大小。
BLT 由一个大型全局自回归语言模型和两个较小的局部模型组成，能够有效地将字节序列编码为 patch。
BLT 模型在鲁棒性方面超越了基于 tokenizer 的模型，尤其在处理带噪声的输入时表现更佳。
BLT 模型可以利用经过预训练的基于 tokenizer 的模型来实现更快的训练收敛。

❓

延伸问答

BLT模型的主要创新是什么？

BLT模型通过直接建模原始字节流，取代传统的基于token的架构，展现出更高效的计算能力和更强的鲁棒性。

BLT在处理噪声输入时的表现如何？

BLT在处理多样化和噪声输入时表现优越，超越了基于token的架构。

BLT模型如何节省计算资源？

BLT模型在推理过程中节省了高达50%的计算资源，通过动态分组字节为patch来优化计算效率。

BLT模型与传统token模型相比有什么优势？

BLT模型在字符级理解、噪声输入和长尾泛化任务中表现出色，且在推理过程中性能相当或更好，同时节省计算资源。

BLT模型的架构是怎样的？

BLT由一个大型全局自回归语言模型和两个较小的局部模型组成，能够有效地将字节序列编码为patch。

BLT模型的训练效果如何？

BLT模型在训练时的flop控制性能与Llama 3相当，同时在推理时使用的flop减少了高达50%。

🏷️

继续阅读

人工智能论文评审：语言模型是少量学习者（GPT-3）
GPT-3的论文展示了大型语言模型如何通过上下文学习新任务，而无需特定的微调。它能够通过示例直接从提示中学习，标志着AI系统交互方式的重大转变。这种“少量...
LeCun炮轰Hinton：他认可LLM就是想摆烂退休了！
Lecun与Hinton对大型语言模型（LLM）的看法存在显著分歧。Hinton认为LLM接近人类智能，而Lecun则认为LLM并非通往人类智能的路径，强...
Meta新一轮大规模裁员本周正式启动；三星电子管理层与工会领袖重启薪资谈判；马斯克起诉OpenAI被驳回
Meta本周启动新一轮裁员，计划裁减8000人并取消6000个招聘岗位。三星电子与工会重启薪资谈判，避免罢工。苹果推出入门级产品，利用瑕疵芯片。马斯克起诉...
为什么谷歌的Remy泄露让企业架构师重新思考AI架构
谷歌正在开发名为Remy的新型个人助手，旨在通过Gemini应用程序执行用户任务。这一助手可能会改变AI服务的整合方式，推动更长效的自主代理工作流，标志着...
在推出AGI芯片后美国FTC宣布对ARM进行反垄断调查调查ARM是否试图垄断架构
美国联邦贸易委员会对ARM展开反垄断调查，关注其是否试图垄断芯片技术。ARM推出AGI芯片后，可能不再公平对待下游客户，影响市场竞争。高通等公司对此表示担...
微软开源发布首款通用服务器发行版Azure Linux 4.0 由微软长期优化并提供维护服务
#系统资讯微软开源发布 (微软的) 首款通用服务器发行版 Azure Linux 4.0，由微软基于 Fedora Linux 进行优化和长期维护。该发...