Lenix

Lenix -

大语言模型LLM技术原理

在今天这个时代,人们的工作和生活已经离不开数据访问,而几乎所有平台背后的数据存储和查询都离不开数据库。SQL 作为一种数据库的查询和处理语言历史悠久,最早由 IBM 于上世纪 70 年代初研究关系数据模型时提出,后续发展为一种广泛使用的数据库标准访问接口。 今天大语言模型的发展给了我们一个契机,重新审视这层标准,如何让人们以更加自然的方式访问数据库,数据以更直接、更灵活的方式返回给客户。由于历史发展的原因,从数据库分析出一个结论,需要 “分析人员 报表前端 数据后端 SQL 数据存储” 的全路径,这一使用范式在未来将受到挑战。除了自然语言本身的优势外,语境的上下文学习能力、迁移学习和文字总结能力也有很大的发挥空间,带着这些思考,我们有必要了解一下大语言模型背后的发展及其技术原理。 一、大语言模型的发展 大语言模型作为一个被验证可行的方向,其 “大” 体现在训练数据集广,模型参数和层数大,计算量大,其价值体现在通用性上,并且有更好的泛化能力。相较于传统特定领域训练出来的语言模型,有更广泛的应用场景。这篇文章参考 Google 和 OpenAI 相关论文及部分作者的补充,结合我的理解尝试用大家普遍看得明白的语言,对其技术发展和主要实现进行解析。 1.1 Transformer 模型的提出 在 Transformer 提出之前,自然语言处理领域的主流模型是循环神经网络(RNN,recurrent neural network),使用递归和卷积神经网络进行语言序列转换。2017 年,谷歌大脑团队在人工智能领域的顶会 NeurIPS 发表了一篇名为 “Attention is all you need” 的论文,首次提出了一种新的简单网络架构,即 Transformer,它完全基于注意力机制 (attention),完全摒弃了循环递归和卷积。… The post 大语言模型LLM技术原理 first appeared on Lenix Blog.

本文介绍了ChatGPT模型的训练范式RLHF,即基于人类反馈的强化学习来优化语言模型。RLHF训练包括预训练语言模型、训练奖励模型和用强化学习微调语言模型三个步骤。ChatGPT能够更好地理解指令的意图,并按指令完成符合训练者价值观的输出。

ChatGPT PPO算法 RLHF llm 大语言模型 强化学习 语言模型

相关推荐 去reddit讨论

热榜 Top10

观测云
观测云
LigaAI
LigaAI
Dify.AI
Dify.AI
eolink
eolink

推荐或自荐