Databricks ·

大规模快速PEFT服务

💡 原文英文，约3000词，阅读约需11分钟。

📝

内容提要

在Databricks，我们专注于数据智能，开发了高效的推理引擎，实现客户工作负载的2倍性能提升。通过优化调度、内存和量化技术，我们在处理LoRA微调模型时平衡了模型质量与推理速度。我们的推理运行时在真实环境中比开源解决方案快1.5倍，满足企业级需求。

🎯

关键要点

Databricks专注于数据智能，开发了高效的推理引擎，实现客户工作负载的2倍性能提升。
通过优化调度、内存和量化技术，平衡了LoRA微调模型的质量与推理速度。
我们的推理运行时在真实环境中比开源解决方案快1.5倍，满足企业级需求。
构建AI推理引擎不仅仅是追求速度，还要解决实际客户的问题。
我们开发了一个定制的推理引擎，能够在客户工作负载上超越开源解决方案。
LoRA微调技术因其内存效率和成本可控性而受到欢迎。
在推理时，LoRA适配器以低秩矩阵乘法的形式应用，需优化性能以应对请求的变化。
我们通过定制的Attention和GEMM实现最大化性能，同时保持模型质量。
量化技术必须尊重模型质量，FP8量化可以带来速度提升，但需与混合格式和融合内核结合使用。
在推理过程中，CPU的开销常常是隐形的瓶颈，需减少GPU的空闲时间。
我们采用了混合注意力机制，结合FP8和BF16格式以优化性能和质量。
通过程序化依赖启动技术（PDL），我们能够在同一流中重叠依赖内核的执行。
我们的推理运行时在处理LoRA请求时，能够实现高达1.5倍的吞吐量提升。
每项优化都经过严格的质量验证，确保在追求速度的同时不牺牲准确性。

❓

延伸问答

Databricks的推理引擎有什么优势？

Databricks的推理引擎在客户工作负载上实现了高达2倍的性能提升，并且在真实环境中比开源解决方案快1.5倍。

LoRA微调技术的优势是什么？

LoRA微调技术因其内存效率和成本可控性而受到欢迎，能够在处理多个特定用例时保持经济性。

如何优化推理过程中的性能？

通过优化调度、内存和量化技术，减少CPU开销，最大化GPU利用率，以及重叠内核执行来优化推理性能。

Databricks的推理运行时如何处理LoRA请求？

Databricks的推理运行时能够在处理LoRA请求时实现高达1.5倍的吞吐量提升，并通过定制的Attention和GEMM实现性能最大化。

量化技术在推理中如何影响模型质量？

量化技术必须尊重模型质量，FP8量化可以提升速度，但需与混合格式和融合内核结合使用，以确保准确性不受影响。

Databricks如何确保推理引擎的质量？

Databricks通过严格的质量验证，确保每项优化在追求速度的同时不牺牲准确性，并进行详细的统计比较。

🏷️

继续阅读

OpenClaw v2026.6.1：Windows原生节点、支持MiniMax M3
OpenClaw 2026.6.1版本发布，支持Windows原生节点，简化使用流程。新增Agent技能工坊，允许Agent自学修复问题并存储技能。工作板...
让 Amazon Quick 操作飞书：构建远程 MCP 服务的设计实践
本文探讨了如何利用AWS Bedrock AgentCore构建Amazon Quick与飞书的远程MCP服务，提出了按需编排、分层注册和Token安全的...
[折扣代码] ChatGPT商业版向8个国家用户提供买1送1优惠至少开通2个席位
OpenAI推出ChatGPT商业版促销活动，用户开通两个席位可享买一送一优惠。该服务支持八个国家，价格从18英镑到25美元不等，印度区价格最低，约134...
OpenAI合并ChatGPT和Codex，AI超级App路线浮出水面！
OpenAI合并了ChatGPT和Codex，推出了AI超级App，Codex用户已超过500万，其中20%为非开发者。新功能包括角色插件、网站和批注，旨...
早报｜曝苹果Vision Pro系列被砍/多地高考将查验智能眼镜/DeepSeek首轮融资规模约500亿元
苹果智能眼镜产品线调整，仅剩两款，Vision Pro系列被取消。DeepSeek计划融资500亿元，腾讯和宁德时代为主要投资者。高考将查验智能眼镜，考生...
道德使我痛苦
赫尔曼·黑塞的作品深刻反映了他对道德和人性的思考。他经历了家庭的宗教压迫和精神疾病，通过写作寻求自我救赎。黑塞的婚姻生活充满矛盾，渴望亲密却又逃避责任。他...