Comma v0.1 -全开源数据训练的可复现大模型

Comma v0.1 -全开源数据训练的可复现大模型

💡 原文中文,约1200字,阅读约需3分钟。
📝

内容提要

Common Pile团队开源了基于合法数据训练的7B LLM模型Comma v0.1,分别使用1T和2T数据集,基于Llama3架构,目前仅支持英文。团队还提供了训练配置文件和测试方法,期望未来能有更多合法开放的AI模型。

🎯

关键要点

  • Common Pile团队开源了7B LLM模型Comma v0.1,使用1T和2T数据集。
  • 训练数据来自Common Pile v0.1,确保数据合法,未使用带版权的数据。
  • 模型基于Llama3架构,目前仅支持英文,其他语言效果较差。
  • 团队提供了训练配置文件和测试方法,训练框架为lingua。
  • Comma v0.1 1T和2T模型的权重已开放,分别有safetensor和mlx格式。
  • 目前提供的模型为base模型,不是instruct模型。
  • 用户可以通过mlx框架在mac上测试模型,提供了简单的测试命令。
  • 这是AI透明化的一小步,期待未来有更多合法开放的AI模型。

延伸问答

Comma v0.1模型的训练数据来源是什么?

Comma v0.1模型的训练数据来自Common Pile v0.1,确保数据合法,未使用带版权的数据。

Comma v0.1模型支持哪些语言?

目前Comma v0.1模型仅支持英文,其他语言效果较差。

如何在Mac上测试Comma v0.1模型?

可以通过mlx框架在Mac上测试,使用命令:uv run --python 3.12 --with mlx-lm mlx_lm.generate --model simonw/comma-v0.1-2t-mlx --prompt 'The capital city of china is'。

Comma v0.1模型的架构是什么?

Comma v0.1模型基于Llama3架构。

Comma v0.1模型的权重格式有哪些?

Comma v0.1模型的权重格式包括safetensor和mlx格式。

Common Pile团队对未来AI模型的期望是什么?

团队期待未来能有更多合法开放的AI模型,推动AI透明化。

➡️

继续阅读