Phi-3 技術報告:在您的手機上本地運行的功能強大的語言模型

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

phi-3-mini是一个38亿参数的语言模型,使用33万亿标记进行训练。该模型在学术基准和内部测试中表现出色,足够小可以在手机上运行。训练数据集是phi-2数据集的扩大版本,由经过过滤的网络数据和合成数据组成。文章还提到了模型的鲁棒性、安全性和聊天格式,并提供了7B和14B模型的初始参数缩放结果。

🎯

关键要点

  • phi-3-mini是一个38亿参数的语言模型,使用33万亿标记进行训练。
  • 该模型在学术基准和内部测试中表现出色,能够与Mixtral 8x7B和GPT-3.5等大型模型相媲美。
  • phi-3-mini模型足够小,可以在手机上运行。
  • 训练数据集是phi-2数据集的扩大版本,由经过过滤的网络数据和合成数据组成。
  • 模型的鲁棒性、安全性和聊天格式得到了说明。
  • 提供了7B和14B模型的初始参数缩放结果,分别训练了48万亿的标记。
  • 7B和14B模型相比phi-3-mini更加强大,MMLU分别为75%和78%,MT-bench分别为8.7和8.9。
➡️

继续阅读