Databricks ·

推出DBRX：开创性的新一代开放大语言模型

💡 原文英文，约3600词，阅读约需14分钟。

📝

内容提要

Databricks推出了DBRX，一种开放的通用大语言模型（LLM），超越了GPT-3.5，并与Gemini 1.0 Pro竞争。DBRX为开放LLM设定了新的技术水平，并提供了以前仅限于闭源模型API的功能。它在编程方面优于专门的模型如CodeLLaMA-70B，并在训练和推理性能方面取得了显著改进。DBRX可通过Databricks工具进行预训练或微调，并可供Databricks客户通过API使用。它正在集成到GenAI驱动的产品中，并在RAG任务中是领先的模型。

🎯

关键要点

Databricks推出了DBRX，一种开放的通用大语言模型，超越了GPT-3.5，并与Gemini 1.0 Pro竞争。
DBRX在编程方面优于专门的模型CodeLLaMA-70B，并在训练和推理性能方面取得显著改进。
DBRX采用细粒度的专家混合（MoE）架构，推理速度比LLaMA2-70B快2倍，且模型大小仅为Grok-1的40%。
DBRX的基础模型和微调模型的权重在Hugging Face上以开放许可证提供，客户可以通过API使用。
DBRX在SQL等应用中的早期推出超越了GPT-3.5 Turbo，并在RAG任务中表现出色。
训练专家混合模型面临科学和性能挑战，但Databricks已建立了高效的训练管道。
DBRX是基于变换器的解码器模型，使用132B总参数，其中36B参数在任何输入上是活跃的。
DBRX在12T文本和代码数据上进行预训练，使用了更好的数据集，模型质量显著提升。
DBRX在多个基准测试中表现优异，尤其在编程和数学方面超越其他开放模型。
DBRX在长上下文任务和RAG任务中表现良好，尤其在32K上下文窗口的任务中。
DBRX的训练效率显著提高，使用MoE架构使得计算效率大幅提升。
DBRX的推理效率高于同类非MoE模型，能够实现更好的质量与效率平衡。
DBRX的构建过程使用了Databricks的多种工具，确保了数据管理和模型训练的高效性。
Databricks希望通过DBRX帮助企业控制数据和未来的发展，DBRX是其下一代GenAI产品的核心。
DBRX的开发得到了Databricks内部团队和外部社区的支持，未来将继续与社区合作。

❓

延伸问答

DBRX与GPT-3.5相比有什么优势？

DBRX在多个基准测试中超越了GPT-3.5，尤其在编程和数学方面表现更佳。

DBRX的架构是什么？

DBRX采用细粒度的专家混合（MoE）架构，具有132B总参数，其中36B参数在任何输入上是活跃的。

如何使用DBRX进行微调？

客户可以通过Databricks工具对DBRX进行预训练或微调，并通过API访问模型。

DBRX在长上下文任务中的表现如何？

DBRX在长上下文任务中表现良好，支持最大32K的上下文窗口。

DBRX的训练效率如何？

DBRX的训练效率显著提高，使用MoE架构使计算效率大幅提升，训练所需的FLOPs减少。

DBRX的开发得到了哪些支持？

DBRX的开发得到了Databricks内部团队和外部社区的支持，未来将继续与社区合作。

🏷️

继续阅读

大语言模型可解释性入门
文章讨论了大语言模型（LLM）的可解释性，强调动态评估的重要性。尽管LLM在AI领域取得了突破，其内部运作仍不透明。研究者提出了基于SMILE的框架，通过...
献给计算机严谨细致的颂歌
文章探讨了计算机编程中的精确性与用户思维的关系。编程要求明确数据类型，促使开发者深思。然而，随着大型语言模型（LLMs）的出现，精确性减弱，用户可以更快实...
查询标签：您的数据仓库查询所缺失的上下文
Databricks推出了查询标签功能，允许用户为每个SQL执行添加自定义业务上下文，以便追踪和分析查询。通过自动标记，用户可以识别查询来源、成本中心和项...
阿里云免费DNS限速来了！解析量超标限速？附替代方案推荐
阿里云宣布自2026年6月24日起，免费版云解析DNS将实施每日解析量限额（10万次）。超限后可能影响解析稳定性，建议用户关注解析量并考虑升级付费版。用户...
有开发者的Codex Team订阅也从每周重置变成每月重置但可能是系统故障
OpenAI的Codex Team订阅用户发现使用配额从每周重置变为每月重置，可能是系统故障。免费版用户的算力受到限制，批量注册账号的收益有限。用户可以登...
华擎推出预装CPU的N250M/D5单内存主板采用被动散热定位入门级台式机
华擎推出的N250M/D5主板预装英特尔N250处理器，适合入门级台式机，主要用于办公和学习。该主板采用被动散热设计，运行安静，支持单条DDR5内存和多种...