大语言模型入门指南
原文中文,约1200字,阅读约需3分钟。发表于: 。随着 ChatGPT 的到来,大语言模型(Large Language Model,简称 LLM)成了新时代的流行词(buzzword),各种基于 AI 的产品百花齐放。 大多数人直接
大模型通过输入大量语料来让计算机获得类似人类思考能力的方法,可以进行文本生成、推理问答、对话、文档摘要等任务。训练大模型需要使用GPU进行大量计算,通常以几千亿序列的输入为标准。微调是为了让大模型更好地适应某个行业。Token是大模型处理和生成的文本单位,通过数字化表示和embedding过程,计算机可以理解Token之间的联系。大模型采用自注意力机制学习Token之间的依赖关系。