Ying’s Blog ·

《GPT 图解》笔记：N-Gram、NPLM、LSTM

💡 原文中文，约6800字，阅读约需17分钟。

📝

内容提要

本文介绍了语言模型的发展历程，包括N-Gram、NPLM、RNN和LSTM等。N-Gram通过统计前n-1个词的概率进行预测，但缺乏泛化能力；NPLM引入词向量，具备一定的泛化能力；RNN和LSTM通过递归状态支持变长序列，解决了长期依赖问题。总结了N-Gram和Bag-of-Words的基本原理及应用。

🎯

关键要点

N-Gram模型通过统计前n-1个词的概率进行下一个词的预测，但缺乏泛化能力。
NPLM引入词向量embedding，具备一定的泛化能力，但仍然是固定窗口。
RNN和LSTM通过递归状态支持变长序列，解决了长期依赖问题。
N-Gram模型适用于文本生成，Bag-of-Words适用于文本相似度计算。
Word2Vec通过上下文预测任务学习词的稠密向量表示，能够捕捉更多信息。
NPLM通过embedding将离散token转换为连续向量，核心目标是预测下一个词。
RNN通过hidden state递归传递历史信息，支持变长序列，LSTM是其改进版本。

❓

延伸问答

N-Gram模型的基本原理是什么？

N-Gram模型通过统计前n-1个词的概率来预测下一个词，但缺乏泛化能力。

NPLM与Word2Vec有什么区别？

NPLM的核心目标是预测下一个词，而Word2Vec的核心目标是学习词表示。

RNN和LSTM是如何解决长期依赖问题的？

RNN通过hidden state递归传递历史信息，而LSTM通过引入门控机制来更好地捕捉长期依赖。

Bag-of-Words模型适合用于什么场景？

Bag-of-Words模型适用于文本相似度计算，因为它记录了词汇表中每个词的出现次数。

Word2Vec的Skip-Gram模型是如何工作的？

Skip-Gram模型通过输入中心词来预测上下文中的词，从而学习词的稠密向量表示。

N-Gram模型的假设是什么？

N-Gram模型基于贾里尼克假设和一阶马尔可夫假设，认为一个词的出现概率只与前一个词有关。

🏷️

继续阅读

WPS笔记正式发布：AI贯穿记录、整理与复用全过程
金山办公于6月5日发布了AI笔记产品WPS笔记，旨在提升个人知识管理。该产品支持语音、图片和文字等多种信息录入方式，强调信息的主动理解与复用。通过多级AI...
删除了100条Obsidian笔记：信号密度更强，资料库更聪明了
作者通过清理2100条Obsidian笔记，提出“信号密度”概念，强调减少噪音比增加信息更重要。有效笔记应包含个人思考，纯收集信息会降低AI效率。提供了四...
开始在 Amazon Bedrock 上使用 OpenAI GPT-5.5、GPT-5.4 模型和 Codex
OpenAI的GPT-5.5和GPT-5.4模型以及Codex已在Amazon Bedrock平台上线。这些模型专注于代码编写和复杂工作流程，支持开发者通...
论独立游戏的起步立项方法论
在当下这个互联网时代做独立游戏，是幸运的，得益于各路大佬的经验分享，诸如引擎选择、外包渠道、素材获取，编程整合 […]
技嘉在COMPUTEX 2026展示多款生活美学主机
(全球TMT2026年6月5日讯)技嘉科技于COMPUTEX 2026展示多款生活美学主机，包含展现简约风格的 […]
技嘉于COMPUTEX 2026以“ENTER INFINITY”为主题开展
(全球TMT2026年6月5日讯)技嘉科技正式于COMPUTEX 2026以“ENTER INFINITY”为 […]