华为云官方博客 ·

带你从3方面解析CPM-Bee大模型

💡 原文中文，约2600字，阅读约需7分钟。

📝

内容提要

华为云社区分享了CPM-Bee的技术公开课预告和知识回顾。CPM-Bee是一个开源的百亿参数中英文基座模型，采用Transformer的自回归架构，在超万亿高质量语料上进行预训练。CPM-Bee的模型结构采用统一编码器架构和Pre-LayerNorm结构。CPM-Bee的输入数据可以通过嵌套字典的方式指定，支持多任务的零样本能力。CPM-Bee的使用方法包括预训练、微调和推理。

🎯

关键要点

CPM-Bee是一个开源的百亿参数中英文基座模型，发布于2023年5月27日。
CPM-Bee采用Transformer的自回归架构，在超万亿高质量语料上进行预训练。
CPM-Bee的模型结构采用统一编码器架构和Pre-LayerNorm结构，训练过程更稳定。
Attention Mask通过位置编码和输入数据格式设置，支持复杂文本训练。
CPM-Bee的输入数据可以通过嵌套字典的方式指定，支持多任务的零样本能力。
CPM-Bee的使用方法包括预训练、微调和推理，涉及数据清洗和处理。
预训练需要编写任务转换脚本和便携数据集脚本，启动预训练。
微调过程需要将数据转换为CPM-Bee可读格式，并配置微调脚本。
推理可以基于CPM-Bee仓或Huggingface进行。
昇思MindSpore技术公开课将继续提供相关课程，助力华为ICT大赛。

🏷️

带你从3方面解析CPM-Bee大模型

内容提要

关键要点

标签

继续阅读