免费Dolly:推出全球首个真正开源的指令调整大型语言模型

免费Dolly:推出全球首个真正开源的指令调整大型语言模型

💡 原文英文,约2300词,阅读约需9分钟。
📝

内容提要

Dolly 2.0是一个开源的大型语言模型,经过人类生成的指令数据集fine-tuned。数据集包含15,000个高质量的人类生成的提示/响应对,专门设计用于指令调整大型语言模型。该模型基于EleutherAI pythia模型系列,适用于商业使用。模型权重、训练代码和数据集都是开源的。Dolly 2.0表现出高质量的指令跟随行为,可用于摘要和内容生成。发布Dolly 2.0和开源数据集鼓励在人工智能领域进行评论、研究和创新。

🎯

关键要点

  • Dolly 2.0是一个开源的大型语言模型,经过人类生成的指令数据集fine-tuned。
  • 该模型基于EleutherAI pythia模型系列,适用于商业使用。
  • 模型权重、训练代码和数据集都是开源的,任何组织都可以创建和定制强大的LLM。
  • databricks-dolly-15k数据集包含15,000个高质量的人类生成的提示/响应对,专门设计用于指令调整大型语言模型。
  • 该数据集是首个专门为大型语言模型设计的开源人类生成指令数据集。
  • Dolly 1.0发布后,用户对商业使用的需求促使了新数据集的创建。
  • 为了避免使用受限数据集,团队决定众包创建新的高质量数据集。
  • 通过竞赛激励,Databricks员工生成了超过15,000个高质量的问答对。
  • Dolly 2.0在指令跟随行为方面表现出色,适用于摘要和内容生成。
  • Dolly 2.0的发布鼓励在人工智能领域进行评论、研究和创新。
  • 用户可以通过Databricks Hugging Face页面下载Dolly 2.0模型权重和数据集。
➡️

继续阅读