Databricks ·

使用Mosaic AI模型服务对微调的Llama模型进行批量推理

💡 原文英文，约1400词，阅读约需5分钟。

📝

内容提要

构建可扩展的生成式AI解决方案需要可靠的LLM可用性。Databricks提供高性能基础模型的Provisioned Throughput端点，支持Llama 3.1和3.2变体。用户可通过简单步骤创建端点，进行批量推理，并使用MLflow评估生成的新闻摘要质量，以确保内容高质量。

🎯

关键要点

构建可扩展的生成式AI解决方案需要可靠的LLM可用性。
Databricks提供高性能基础模型的Provisioned Throughput端点，支持Llama 3.1和3.2变体。
用户可以通过简单步骤创建端点，进行批量推理。
使用MLflow评估生成的新闻摘要质量，以确保内容高质量。
创建Provisioned Throughput端点需要将模型注册到MLflow。
使用Databricks Volumes可以自动扩展存储空间。
ai_query功能简化了批量推理的复杂性，支持并行推理。
MLflow.evaluate()功能简化了LLM性能评估，支持自定义评估指标。
评估结果可以记录在实验运行中，并写入Unity Catalog以便后续查询。

❓

延伸问答

如何在Databricks上创建Provisioned Throughput端点？

在Databricks上创建Provisioned Throughput端点需要先将模型注册到MLflow，然后通过UI或REST API创建端点，选择模型并设置所需的吞吐量。

Mosaic AI模型服务如何支持批量推理？

Mosaic AI模型服务通过ai_query功能简化了批量推理的复杂性，支持并行推理，用户只需构建SQL查询即可进行批量推理。

如何使用MLflow评估生成的新闻摘要质量？

使用MLflow的mlflow.evaluate()功能，可以定义自定义指标来评估生成的新闻摘要质量，并过滤出低质量的摘要进行人工审核。

Databricks Volumes在模型注册中有什么作用？

Databricks Volumes可以自动扩展存储空间，适合存储大型模型如Nemotron-70B，确保在下载和注册模型时不会出现空间不足的问题。

ai_query功能的优势是什么？

ai_query功能能够处理单个或批量推理，简化了复杂性，支持高效的并行推理，用户无需编写复杂的用户定义函数。

如何确保生成的内容质量高？

通过使用MLflow评估生成的新闻摘要质量，并定义自定义评估指标，可以确保只有高质量的内容被发布。

🏷️

继续阅读

搜索速度提升3倍：使用Instructed-Retriever-1的并行测试时间扩展
Databricks发布了Agent Bricks知识助手的重大更新，显著提升了回答生成速度和搜索效率，搜索时间减少超过3倍，回答生成时间减少2倍。新模型...
Galaxea G0.5——升级“VLA自回归建模”范式：摒弃VLM上添加动作专家的模式，而是构建统一模型，用一套权重，在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)
星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列，通过共享权重实现推理与动作的耦合，提升机器人控制效率。该模型采用可学习的动作分词器和...
在AI工作负载时代如何确保Kubernetes的安全性
Kubernetes的安全性因AI工作负载而变得复杂，传统的集群安全措施已无法应对动态流量。Azure Kubernetes Service（AKS）通过...
Asana称其新的AI“首席助理”将您的Slack混乱转化为可追踪的工作
Asana在伦敦的工作创新峰会上推出了名为Dash的AI助手，旨在提升工作管理平台的效率。Dash能够从会议、Slack和邮件中捕捉待办事项，并将其转化为...
Nvidia最新模型现已上线
Nvidia发布了Nemotron 3 Ultra模型，拥有5500亿参数，支持高达100万标记的上下文窗口。该模型速度显著提升，能节省用户30%的成本。...
Kaggle 使 AI 基准创建变得轻而易举
Kaggle Benchmarks推出本地开发功能，允许开发者在本地环境中创建和验证评估任务。该功能支持使用AI编码代理通过自然语言构建任务，旨在加速AI...