The New Stack ·

Ai2的Olmo 3推动开源大型语言模型性能的极限

💡 原文英文，约900词，阅读约需4分钟。

📝

内容提要

艾伦人工智能研究所推出了开源大型语言模型Olmo 3，包含三种变体，表现优异，支持开发者定制。团队提供预训练数据集和评估工具，以提升模型质量。

🎯

🔎

Olmo 3的开源特性使开发者能够根据自身需求进行定制和微调。这种灵活性不仅降低了使用门槛，还促进了创新，开发者可以利用提供的训练数据和脚本，快速构建适合特定领域的模型。

Olmo 3团队在数据预处理上投入了大量精力，去重和引入新数据以提升模型性能。开发者在使用这些模型时，应关注训练数据的质量，因为高质量的数据直接影响模型的效果和应用场景。

Olmo 3提供了多种变体，包括Base、Think和Instruct，适用于不同的应用场景。开发者在选择模型时，应考虑具体需求，例如推理能力或多轮对话能力，以便选择最合适的模型进行开发。

❓

Olmo 3包括Olmo 3-Base、Olmo 3-Think和Olmo 3-Instruct三种变体。

Olmo 3-Think是旗舰模型，首次发布推理模型，性能接近其他开源模型。

开发者可以使用提供的数据和脚本创建自己的数据集并进行微调。

Olmo 3在大多数标准基准测试中表现优异，被称为“最佳美国制造的开源模型”。

艾伦研究所提供Dolma 3预训练数据集和Dolci后训练数据套件。

Olmo 3的上下文窗口扩大到8192个标记。

🏷️