DEV Community ·

字节对编码：大型语言模型背后的基本原理

💡 原文英文，约1100词，阅读约需4分钟。

📝

内容提要

大型语言模型（LLM）如DeepSeek和GPT比文本自动纠错机制更复杂。它们基于N-gram模型，通过概率预测下一个单词，分解文本为词对并计算频率。分词方法包括空格分词和字节对编码（BPE），后者通过字符频率构建词汇，减少词汇量并识别未知术语。现代LLM采用更复杂的策略，超出本文讨论范围。

🎯

关键要点

大型语言模型（LLM）如DeepSeek和GPT比文本自动纠错机制更复杂。
N-gram语言模型是LLM的简单前身，通过概率预测下一个单词。
N-gram模型的限制在于需要输入特定的词序列才能进行预测。
双字模型通过检查词对频率来分配概率。
分词方法包括空格分词、词缀分词和字节对编码（BPE）。
字节对编码（BPE）通过字符频率构建词汇，减少词汇量并识别未知术语。
现代LLM采用更复杂的策略，超出本文讨论范围。

❓

延伸问答

大型语言模型（LLM）与文本自动纠错机制有什么区别？

大型语言模型比文本自动纠错机制更复杂，能够处理更复杂的语言结构和上下文。

什么是N-gram模型，它的局限性是什么？

N-gram模型通过概率预测下一个单词，但需要输入特定的词序列，限制了其预测能力。

字节对编码（BPE）是如何工作的？

字节对编码通过字符频率构建词汇，逐步合并频率最高的字符对，形成新的词汇。

字节对编码（BPE）相比其他分词方法有什么优势？

BPE减少了词汇量，并能更好地识别未知术语，避免了无意义的词对。

现代大型语言模型使用了哪些更复杂的策略？

现代LLM采用更复杂的策略，如使用字节而非字符，并通过复杂的网络关联多个标记。

分词方法有哪些？

分词方法包括空格分词、词缀分词和字节对编码（BPE）。

🏷️

继续阅读

维基: Vibe 编程
“Vibe coding”是一种无需编程知识即可通过提示大型语言模型（LLM）构建软件的方法。尽管便捷，但生成的软件常存在可维护性、正确性和安全性问题，适...
介绍Nova，我们的内部编码代理平台
Dropbox开发了Nova平台，旨在支持编码代理在软件开发中的应用。Nova帮助工程师更快地处理重复性任务，如持续集成故障修复和依赖升级，通过交互式会话...
CI并不是为编码代理而设计的。接下来会发生什么？
文章讨论了集成测试在现代开发中的重要性，提出了一种新的测试方法“计划”，允许开发者在代理会话中快速验证代码。通过创建小型、可选择的端到端检查，开发者可以在...
编码代理导致每个人面临决策疲劳
编码代理的兴起使软件开发工作更加密集，导致开发者面临决策疲劳。尽管AI生成代码提高了生产力，但随之而来的代码审查和决策过程变得复杂，增加了开发者的压力。研...
字节Seedance上戛纳了带着全球首部95分钟AI电影
【TechWeb】15个人，14天，要做出一部95分钟的全AI生成剧情长片，然后拿去戛纳放映。听起来像疯了，但这群人真的做到了。5月21日，全球首部95分...
Assembly 推出首个用于联络中心劳动力管理的 MCP 服务器
2025年5月21日，统一的 WFM 和 AI 代理平台 Assembled 发布了 Assembled MCP，这是一个“自带模型”服务器，允许用户在分...