Joway's Blog ·

LLM 训练与推理的基本理解

💡 原文中文，约9400字，阅读约需23分钟。

📝

内容提要

本文探讨了大型语言模型（LLM）的训练与推理过程，重点介绍了向量点积、Softmax、LayerNorm、Token化、BPE编码、位置嵌入、自注意力机制和多头注意力等关键概念。这些技术使模型能够理解词语的上下文关系并生成连贯的文本。训练过程中通过损失函数和反向传播优化模型参数，以提高预测准确性。

🎯

关键要点

向量点积用于衡量向量相似度，定义为两个向量的乘积和。
Softmax将任意分数转换为概率分布，使得每个值在0到1之间且总和为1。
LayerNorm用于稳定训练过程，通过去均值和除以标准差来校准向量。
Token化将文本转换为Token ID，以便数值化处理，确保模型理解文本间的关系。
BPE编码解决了未知词汇的问题，通过合并频繁出现的字符对来构建词表。
位置嵌入为词向量添加位置信息，以便模型理解词语的顺序和上下文关系。
自注意力机制通过Q、K、V向量计算上下文信息，帮助模型理解词语之间的关系。
多头注意力允许模型同时关注多种关系，提升理解能力。
MLP（前馈网络）对每个词进行深加工，增强模型的表达能力。
反向传播通过计算梯度来优化模型参数，降低损失函数值。
模型推理过程通过前向循环生成文本，直到遇到结束符。

❓

延伸问答

什么是向量点积，它的用途是什么？

向量点积是两个向量的乘积和，用于衡量向量的相似度。

Softmax函数的作用是什么？

Softmax函数将任意分数转换为概率分布，使得每个值在0到1之间且总和为1。

什么是BPE编码，它解决了什么问题？

BPE编码通过合并频繁出现的字符对来构建词表，解决了未知词汇的问题。

自注意力机制是如何工作的？

自注意力机制通过Q、K、V向量计算上下文信息，帮助模型理解词语之间的关系。

反向传播在模型训练中起什么作用？

反向传播通过计算梯度来优化模型参数，降低损失函数值。

多头注意力的优势是什么？

多头注意力允许模型同时关注多种关系，提升理解能力。

🏷️

继续阅读

看剧不卡顿、游戏低延迟：「智能队列」这样改善你的冲浪体验
本文介绍了无线路由器中的智能队列功能（fq_codel），旨在优化网络性能和降低延迟。该功能通过公平调度不同应用的流量，避免视频流量影响语音通话和在线游戏...
微信读书发布官方 Skill：可查阅书架、阅读统计、笔记划线，搜索书籍
微信读书推出了官方AI技能，用户可通过连接微信读书账号，使用书架查看、阅读统计、笔记整理和书籍搜索等功能。该技能需要安装指定文件并获取API Key，能够...
Typecho升级到1.3，使用Warmpaper主题
本文讲述了作者将Typecho升级到1.3的过程，包括主题迁移和问题解决。作者记录了在升级中遇到的CommentToMail插件不兼容、Metaweblo...
从管人到管系统行为：AI时代技术管理者的全新认知框架
在AI时代，技术管理者的角色正从管理人转向管理系统行为。随着AI编程的普及，系统变得非确定性，技术管理者需理解和控制这种非确定性。未来的任务包括设计AI生...
SFT别急着接RL！你的多模态大模型可能一直在“带伤训练”
PRISM团队的研究表明，监督微调（SFT）并未促进强化学习（RL），反而可能导致模型性能下降。研究提出了SFT、分布对齐和RL的三阶段流程，强调在多模态...
6.4k Stars！用Claude Code写论文的全套流水线，有人打包开源了
ARS是一款开源项目，利用Claude Code支持学术研究，涵盖研究、写作、审稿和定稿四个阶段。该项目设计旨在防止AI出错，确保引用的真实性和研究的完整...