带你从3方面解析CPM-Bee大模型

💡 原文中文,约2600字,阅读约需7分钟。
📝

内容提要

华为云社区分享了CPM-Bee的技术公开课预告和知识回顾。CPM-Bee是一个开源的百亿参数中英文基座模型,采用Transformer的自回归架构,在超万亿高质量语料上进行预训练。CPM-Bee的模型结构采用统一编码器架构和Pre-LayerNorm结构。CPM-Bee的输入数据可以通过嵌套字典的方式指定,支持多任务的零样本能力。CPM-Bee的使用方法包括预训练、微调和推理。

🎯

关键要点

  • CPM-Bee是一个开源的百亿参数中英文基座模型,发布于2023年5月27日。
  • CPM-Bee采用Transformer的自回归架构,在超万亿高质量语料上进行预训练。
  • CPM-Bee的模型结构采用统一编码器架构和Pre-LayerNorm结构,训练过程更稳定。
  • Attention Mask通过位置编码和输入数据格式设置,支持复杂文本训练。
  • CPM-Bee的输入数据可以通过嵌套字典的方式指定,支持多任务的零样本能力。
  • CPM-Bee的使用方法包括预训练、微调和推理,涉及数据清洗和处理。
  • 预训练需要编写任务转换脚本和便携数据集脚本,启动预训练。
  • 微调过程需要将数据转换为CPM-Bee可读格式,并配置微调脚本。
  • 推理可以基于CPM-Bee仓或Huggingface进行。
  • 昇思MindSpore技术公开课将继续提供相关课程,助力华为ICT大赛。
➡️

继续阅读