Databricks ·

使用Mosaic AI模型服务对微调的Llama模型进行批量推理

💡 原文英文，约1400词，阅读约需5分钟。

📝

内容提要

构建可扩展的生成式AI解决方案需要可靠的LLM端点。Databricks提供支持多种Llama模型的Provisioned Throughput端点，NVIDIA的Nemotron 70B模型在基准测试中表现优异。用户可通过Databricks托管模型，创建批量推理管道，生成新闻摘要，并利用MLflow评估摘要质量，确保内容高质量发布。

🎯

关键要点

构建可扩展的生成式AI解决方案需要可靠的LLM端点。
Databricks提供支持多种Llama模型的Provisioned Throughput端点。
NVIDIA的Nemotron 70B模型在基准测试中表现优异。
用户可以通过Databricks托管模型，创建批量推理管道。
生成新闻摘要并利用MLflow评估摘要质量，确保内容高质量发布。
创建Provisioned Throughput端点需要将模型注册到MLflow。
使用Databricks Volumes可以自动扩展存储空间。
ai_query功能简化了批量推理的复杂性，支持并行处理。
MLflow.evaluate()功能简化了LLM性能评估，支持自定义评估指标。
评估结果可以记录在实验运行中，并写入Unity Catalog以便后续查询。

❓

延伸问答

如何在Databricks上创建Provisioned Throughput端点？

在Databricks上创建Provisioned Throughput端点需要先将模型注册到MLflow，然后通过UI或REST API创建端点，选择模型并设置所需的吞吐量带宽。

Mosaic AI模型服务如何支持批量推理？

Mosaic AI模型服务通过ai_query功能简化批量推理，支持并行处理，用户只需构建SQL查询即可轻松运行批量推理。

如何评估生成的新闻摘要质量？

可以使用MLflow的mlflow.evaluate()功能来评估生成的新闻摘要质量，定义自定义指标并过滤低质量摘要进行人工审核。

Databricks Volumes在模型注册中有什么作用？

Databricks Volumes可以自动扩展存储空间，适用于下载大模型如Nemotron-70B，确保有足够的空间进行模型注册。

NVIDIA的Nemotron 70B模型在基准测试中的表现如何？

NVIDIA的Nemotron 70B模型在多种基准测试中表现优异，是Llama 3.1的微调变体，适合用于生成新闻摘要。

如何使用ai_query进行批量推理？

使用ai_query时，构建SQL查询，将Provisioned Throughput端点名称作为第一个参数，第二个参数为要应用的提示和列的连接。

🏷️

继续阅读

搜索速度提升3倍：使用Instructed-Retriever-1的并行测试时间扩展
Databricks发布了Agent Bricks知识助手的重大更新，显著提升了回答生成速度和搜索效率，搜索时间减少超过3倍，回答生成时间减少2倍。新模型...
Galaxea G0.5——升级“VLA自回归建模”范式：摒弃VLM上添加动作专家的模式，而是构建统一模型，用一套权重，在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)
星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列，通过共享权重实现推理与动作的耦合，提升机器人控制效率。该模型采用可学习的动作分词器和...
开始在 Amazon Bedrock 上使用 OpenAI GPT-5.5、GPT-5.4 模型和 Codex
OpenAI的GPT-5.5和GPT-5.4模型以及Codex已在Amazon Bedrock平台上线。这些模型专注于代码编写和复杂工作流程，支持开发者通...
AdaCodec：一种适用于 AI 生成视频的编解码器
上海研究提出AdaCodec编解码器，通过优化帧间信息存储，显著减少AI视频生成的资源消耗。该系统在保持性能的同时，视觉令牌使用量减少约86%，提高了视频...
AI对话开发外包靠谱吗？供应商怎么评估
企业在外包AI对话开发时需谨慎，评估供应商的技术实力、行业经验和服务体系至关重要。外包风险包括能力错配、沟通失误和后期维护问题。选择合适的合作模式和明确合...
Miso Labs发布MisoTTS：一款拥有开放权重的80亿情感文本转语音模型
Miso Labs发布了MisoTTS，这是一款拥有80亿参数的文本转语音模型，采用残差矢量量化技术，能够根据文本和音频上下文生成富有表现力的语音。该模型...