通义千问 Qwen-72B-Chat 大模型在PAI平台的微调实践

💡 原文中文,约6100字,阅读约需15分钟。
📝

内容提要

阿里云开源了参数规模为720亿的通义千问-72B(Qwen-72B)大语言模型,并在PAI平台上提供了全链路的AI开发服务。文章介绍了在PAI平台上使用Qwen-72B-Chat模型进行快速体验和轻量化微调的方法,以及使用Int4/Int8量化模型和PAI-QuickStart全量参数微调Qwen-72B-Chat的方法。

🎯

关键要点

  • 阿里云开源了720亿参数的通义千问-72B大语言模型。
  • Qwen-72B的预训练数据类型多样,覆盖广泛,包括网络文本、专业书籍和代码。
  • 阿里云PAI平台提供全链路的AI开发服务,包括数据标注、模型构建、训练和部署。
  • 使用PAI-DSW可以快速体验和轻量化微调Qwen-72B-Chat模型。
  • ModelScope支持使用Int4/Int8量化模型以节省显存。
  • 轻量化微调Qwen-72B-Chat需要使用LoRA算法,并需A800(80GB)4卡及以上资源。
  • PAI-QuickStart支持零代码实现全量参数微调Qwen-72B-Chat,使用4机32卡进行训练。
  • PAI-QuickStart集成了Megatron-LM的训练流程,提升了大模型分布式训练效率。
  • 用户可以根据需求调整超参数,训练结束后可查看Checkpoint模型切片。
➡️

继续阅读