Databricks ·

将NVIDIA TensorRT-LLM集成到Databricks推理堆栈中

💡 原文英文，约700词，阅读约需3分钟。

📝

内容提要

Databricks Mosaic R&D团队在7个月前推出了推理服务架构的第一个版本。2024年1月，他们将开始使用基于NVIDIA TensorRT-LLM构建的新推理引擎来提供大型语言模型（LLM）的服务。TensorRT-LLM是用于最先进的LLM推理的开源库，与NVIDIA的TensorRT深度学习编译器集成，优化内核用于关键操作，通信原语用于高效多GPU服务。他们与NVIDIA的合作使得从Hugging Face或使用MPT架构的自己的预训练或微调模型进行服务更快更容易。

🎯

关键要点

Databricks Mosaic R&D团队在7个月前推出了推理服务架构的第一个版本。
2024年1月，Databricks将开始使用基于NVIDIA TensorRT-LLM的新推理引擎提供大型语言模型（LLM）服务。
TensorRT-LLM是用于最先进的LLM推理的开源库，集成了NVIDIA的TensorRT深度学习编译器。
TensorRT-LLM优化了语言模型中的关键操作和通信原语，以实现高效的多GPU服务。
与NVIDIA的合作使得从Hugging Face或使用MPT架构的模型进行服务更快更容易。
使用TensorRT-LLM，Databricks在首次令牌时间和每个输出令牌时间上取得了显著改善。
Databricks团队为TensorRT-LLM项目贡献了MPT模型转换脚本，提升了服务效率。
TensorRT-LLM的灵活性使得扩展新模型架构变得顺利，支持不同的优化插件。
TensorRT-LLM的离线推理性能与原生的连续批处理支持结合使用时更强大。
Databricks客户可以通过AI Playground使用推理服务器，当前处于公开预览阶段。
Databricks将利用TensorRT-LLM在即将发布的推理产品中，并期待分享平台的性能改进。

🏷️

继续阅读

在DwarfStar中分布式推理LLM
当前高端NVIDIA显卡及其服务器和电力成本高昂，尤其在运行大型模型时。苹果硬件和DGX Spark是可行的替代方案。Mac Studio M3 Ultr...
悄悄用 Go 重写 AI 基础设施：NVIDIA 的 GPU 云平台为何选择 Go？
NVIDIA 正在用 Go 语言重写其 AI 基础设施，包括 GPU 云函数平台 NVCF、AI 集群运行时 AICR 和分布式存储 AIStore。Go...
Salesforce 旗下的 Informatica 实现跨 Google Cloud、Snowflake 和 Databricks 的无头部署
Salesforce旗下的Informatica在2026年Informatica World大会上宣布与Google Cloud、Snowflake和D...
你有能力在生产环境中运行人工智能吗？
文章讨论了在生产环境中运行人工智能的必要条件。CoreWeave的CTO彼得·萨兰基强调了可观察性、利用率和调度的重要性，并建议避免过早过度设计。Core...
2026.5.25
刚预订了去纽约的机票和夏威夷的租车，都是开发者大会结束后的第二周。至于怎么从纽约去夏威夷，目前的想法
迅策发布全球首款TokenOS操作系统TokenONE
（全球TMT2026年5月26日讯）5月25日，迅策正式发布了全球首款TokenOS操作系统——TokenON […]

将NVIDIA TensorRT-LLM集成到Databricks推理堆栈中

内容提要

关键要点

标签

继续阅读