Ai2的Olmo 3推动开源大型语言模型性能的极限

Ai2的Olmo 3推动开源大型语言模型性能的极限

💡 原文英文,约900词,阅读约需4分钟。
📝

内容提要

艾伦人工智能研究所推出了开源大型语言模型Olmo 3,包含三种变体,表现优异,支持开发者定制。团队提供预训练数据集和评估工具,以提升模型质量。

🎯

关键要点

  • 艾伦人工智能研究所推出了开源大型语言模型Olmo 3,包含三种变体。
  • Olmo 3在大多数标准基准测试中表现优异,被称为“最佳美国制造的开源模型”。
  • 新模型家族包括Olmo 3-Base、Olmo 3-Think和Olmo 3-Instruct。
  • Olmo 3-Think是旗舰模型,首次发布推理模型,性能接近其他开源模型。
  • Instruct模型专注于遵循指令和多轮对话,表现优于多个竞争模型。
  • 模型架构与Olmo 2相似,但上下文窗口扩大到8192个标记。
  • 开放源代码的模型允许开发者根据不同的后训练流程构建和定制模型。
  • 开发者可以使用提供的数据和脚本来创建自己的数据集并进行微调。
  • 艾伦研究所还提供Dolma 3预训练数据集和Dolci后训练数据套件。
  • 团队对训练数据进行了去重,并使用OCR技术引入新的科学论文数据。
  • 团队开发了工具来评估哪些数据有助于提高模型质量。

延伸问答

Olmo 3有哪些变体?

Olmo 3包括Olmo 3-Base、Olmo 3-Think和Olmo 3-Instruct三种变体。

Olmo 3-Think模型的特点是什么?

Olmo 3-Think是旗舰模型,首次发布推理模型,性能接近其他开源模型。

开发者如何定制Olmo 3模型?

开发者可以使用提供的数据和脚本创建自己的数据集并进行微调。

Olmo 3在基准测试中的表现如何?

Olmo 3在大多数标准基准测试中表现优异,被称为“最佳美国制造的开源模型”。

艾伦人工智能研究所提供了哪些数据集?

艾伦研究所提供Dolma 3预训练数据集和Dolci后训练数据套件。

Olmo 3的上下文窗口有多大?

Olmo 3的上下文窗口扩大到8192个标记。

➡️

继续阅读