推出DBRX:开创性的新一代开放大语言模型

推出DBRX:开创性的新一代开放大语言模型

💡 原文英文,约3600词,阅读约需14分钟。
📝

内容提要

Databricks推出了DBRX,一种开放的通用大语言模型(LLM),超越了GPT-3.5,并与Gemini 1.0 Pro竞争。DBRX为开放LLM设定了新的技术水平,并提供了以前仅限于闭源模型API的功能。它在编程方面优于专门的模型如CodeLLaMA-70B,并在训练和推理性能方面取得了显著改进。DBRX可通过Databricks工具进行预训练或微调,并可供Databricks客户通过API使用。它正在集成到GenAI驱动的产品中,并在RAG任务中是领先的模型。

🎯

关键要点

  • Databricks推出了DBRX,一种开放的通用大语言模型,超越了GPT-3.5,并与Gemini 1.0 Pro竞争。
  • DBRX在编程方面优于专门的模型CodeLLaMA-70B,并在训练和推理性能方面取得显著改进。
  • DBRX采用细粒度的专家混合(MoE)架构,推理速度比LLaMA2-70B快2倍,且模型大小仅为Grok-1的40%。
  • DBRX的基础模型和微调模型的权重在Hugging Face上以开放许可证提供,客户可以通过API使用。
  • DBRX在SQL等应用中的早期推出超越了GPT-3.5 Turbo,并在RAG任务中表现出色。
  • 训练专家混合模型面临科学和性能挑战,但Databricks已建立了高效的训练管道。
  • DBRX是基于变换器的解码器模型,使用132B总参数,其中36B参数在任何输入上是活跃的。
  • DBRX在12T文本和代码数据上进行预训练,使用了更好的数据集,模型质量显著提升。
  • DBRX在多个基准测试中表现优异,尤其在编程和数学方面超越其他开放模型。
  • DBRX在长上下文任务和RAG任务中表现良好,尤其在32K上下文窗口的任务中。
  • DBRX的训练效率显著提高,使用MoE架构使得计算效率大幅提升。
  • DBRX的推理效率高于同类非MoE模型,能够实现更好的质量与效率平衡。
  • DBRX的构建过程使用了Databricks的多种工具,确保了数据管理和模型训练的高效性。
  • Databricks希望通过DBRX帮助企业控制数据和未来的发展,DBRX是其下一代GenAI产品的核心。
  • DBRX的开发得到了Databricks内部团队和外部社区的支持,未来将继续与社区合作。
➡️

继续阅读