带你从3方面解析CPM-Bee大模型
💡
原文中文,约2600字,阅读约需7分钟。
📝
内容提要
华为云社区分享了CPM-Bee的技术公开课预告和知识回顾。CPM-Bee是一个开源的百亿参数中英文基座模型,采用Transformer的自回归架构,在超万亿高质量语料上进行预训练。CPM-Bee的模型结构采用统一编码器架构和Pre-LayerNorm结构。CPM-Bee的输入数据可以通过嵌套字典的方式指定,支持多任务的零样本能力。CPM-Bee的使用方法包括预训练、微调和推理。
🎯
关键要点
- CPM-Bee是一个开源的百亿参数中英文基座模型,发布于2023年5月27日。
- CPM-Bee采用Transformer的自回归架构,在超万亿高质量语料上进行预训练。
- CPM-Bee的模型结构采用统一编码器架构和Pre-LayerNorm结构,训练过程更稳定。
- Attention Mask通过位置编码和输入数据格式设置,支持复杂文本训练。
- CPM-Bee的输入数据可以通过嵌套字典的方式指定,支持多任务的零样本能力。
- CPM-Bee的使用方法包括预训练、微调和推理,涉及数据清洗和处理。
- 预训练需要编写任务转换脚本和便携数据集脚本,启动预训练。
- 微调过程需要将数据转换为CPM-Bee可读格式,并配置微调脚本。
- 推理可以基于CPM-Bee仓或Huggingface进行。
- 昇思MindSpore技术公开课将继续提供相关课程,助力华为ICT大赛。
➡️