通义千问 Qwen-72B-Chat 大模型在PAI平台的微调实践
💡
原文中文,约6100字,阅读约需15分钟。
📝
内容提要
阿里云开源了参数规模为720亿的通义千问-72B(Qwen-72B)大语言模型,并在PAI平台上提供了全链路的AI开发服务。文章介绍了在PAI平台上使用Qwen-72B-Chat模型进行快速体验和轻量化微调的方法,以及使用Int4/Int8量化模型和PAI-QuickStart全量参数微调Qwen-72B-Chat的方法。
🎯
关键要点
- 阿里云开源了720亿参数的通义千问-72B大语言模型。
- Qwen-72B的预训练数据类型多样,覆盖广泛,包括网络文本、专业书籍和代码。
- 阿里云PAI平台提供全链路的AI开发服务,包括数据标注、模型构建、训练和部署。
- 使用PAI-DSW可以快速体验和轻量化微调Qwen-72B-Chat模型。
- ModelScope支持使用Int4/Int8量化模型以节省显存。
- 轻量化微调Qwen-72B-Chat需要使用LoRA算法,并需A800(80GB)4卡及以上资源。
- PAI-QuickStart支持零代码实现全量参数微调Qwen-72B-Chat,使用4机32卡进行训练。
- PAI-QuickStart集成了Megatron-LM的训练流程,提升了大模型分布式训练效率。
- 用户可以根据需求调整超参数,训练结束后可查看Checkpoint模型切片。
➡️