Yunfeng's Simple Blog ·

Comma v0.1 -全开源数据训练的可复现大模型

💡 原文中文，约1200字，阅读约需3分钟。

📝

内容提要

Common Pile团队开源了基于合法数据训练的7B LLM模型Comma v0.1，分别使用1T和2T数据集，基于Llama3架构，目前仅支持英文。团队还提供了训练配置文件和测试方法，期望未来能有更多合法开放的AI模型。

🎯

🔎

Common Pile团队的Comma v0.1模型使用合法数据进行训练，确保了模型的合规性。这一做法不仅保护了知识产权，也为AI模型的透明化奠定了基础。随着更多合法数据集的出现，未来的AI模型有望在合规性和性能上取得更好的平衡。

目前Comma v0.1模型仅支持英文，其他语言的效果较差。这一限制可能影响其在多语言环境中的应用，用户在选择使用时需考虑这一点。未来若能扩展到更多语言，将大大提升其适用范围和用户体验。

团队提供了训练配置文件和测试方法，用户可以根据这些信息进行自主实验。这种开放性不仅促进了社区的参与，也为研究人员提供了宝贵的资源，推动了AI领域的创新和发展。

❓

Comma v0.1模型的训练数据来自Common Pile v0.1，确保数据合法，未使用带版权的数据。

目前Comma v0.1模型仅支持英文，其他语言效果较差。

可以通过mlx框架在Mac上测试，使用命令：uv run --python 3.12 --with mlx-lm mlx_lm.generate --model simonw/comma-v0.1-2t-mlx --prompt 'The capital city of china is'。

Comma v0.1模型基于Llama3架构。

Comma v0.1模型的权重格式包括safetensor和mlx格式。

团队期待未来能有更多合法开放的AI模型，推动AI透明化。

🏷️