ChatGPT使用的Transfomer模型
原文中文,约17000字,阅读约需41分钟。发表于: 。作为一个一直对AI技术很感兴趣的软件开发工程师,早在深度学习开始火起来的15、16年,我也开始了相关技术的学习。当时还组织了公司内部同样有兴趣的同学一起研究,最终的成果汇集成几次社区中的分享以及几篇学习文章(见这里)。 从去年OpenAI发布ChatGPT以来,AI的能力再次惊艳了世人。在这样的一个时间节点,重新去学习相关技术显得很有必要。 ChatGPT的内容很多,我计划采用一个系列,多篇...
本文介绍了Transformer模型在LLAMA中的应用,包括网络结构、注意力机制和实现细节。同时提到使用ChatGPT辅助理解代码和问题,并计划在后续文章中分享更多关于ChatGPT技术原理的内容。