ChatGLM两代的部署/微调/实现:从基座GLM、ChatGLM的LoRA/P-Tuning微调、6B源码解读到ChatGLM2的微调与实现
💡
原文中文,约47300字,阅读约需113分钟。
📝
内容提要
Dolly 2.0是EleutherAI pythia模型系列的语言模型,参数为120亿。Databricks发布了名为databricks-dolly-15k的Dolly 2.0微调数据集,包含1.5万条记录,涵盖公开问答、封闭式问答、维基百科信息提取等7个任务。RedPajama是1.2万亿token的开源数据集,包含维基百科、GitHub等来源。COIG是首个大规模可商用的中文开源指令数据集。StableLM是开源语言模型,有3B和7B参数版本,应用于自然语言处理任务。还有其他可商用的模型。
🎯
关键要点
- Dolly 2.0是EleutherAI pythia模型系列的语言模型,参数为120亿。
- Databricks发布了名为databricks-dolly-15k的Dolly 2.0微调数据集,包含1.5万条记录,涵盖7个任务。
- RedPajama是1.2万亿token的开源数据集,包含维基百科、GitHub等来源。
- COIG是首个大规模可商用的中文开源指令数据集。
- StableLM是开源语言模型,有3B和7B参数版本,应用于自然语言处理任务。
- 随着GPT4等多模态技术的推出,技术产品服务将被革新。
- 国内外推出了多种类ChatGPT开源项目,如LLaMA、BLOOM等。
- GLM框架结合了自回归、自动编码和编码-解码模型的优点。
- GLM的训练目标是自回归空格填充,兼容多种预训练目标。
- GLM-130B是国内为数不多的可比肩GPT3的大模型之一,拥有1300亿参数。
- ChatGLM-6B是基于GLM架构的对话语言模型,支持中英双语。
- ChatGLM-6B的训练框架和部署步骤相对简单,支持多种量化方式。
- 通过Stanford Alpaca的52K数据集微调ChatGLM-6B,提升模型性能。
- MOSS是复旦大学推出的支持中英双语的开源对话语言模型。
- baichuan-7B是百川智能开发的开源可商用大规模预训练语言模型。
- 医疗类ChatGPT项目如ChatDoctor通过微调提升医疗领域的问答能力。
- 法律模型LawGPT_zh基于ChatGLM-6B微调,提升法律领域的表现。
- 可商用的数据集和模型如Dolly 2.0、RedPajama、COIG等,支持商业应用。
➡️