在Amazon SageMaker AI和Amazon Bedrock上高效服务数十个微调模型与vLLM

vLLM Blog ·

在Amazon SageMaker AI和Amazon Bedrock上高效服务数十个微调模型与vLLM

💡 原文英文，约2100词，阅读约需8分钟。

📝

内容提要

为解决多模型AI服务的闲置GPU成本问题，我们与vLLM社区合作开发了Multi-LoRA技术，允许多个模型共享同一GPU，优化MoE模型的推理性能。该技术通过保持原始权重不变，仅调整小型适配器，显著提升了输出速度并降低了延迟，适用于多个开源MoE模型，并已在Amazon SageMaker和Bedrock上实现。

🎯

关键要点

为解决多模型AI服务的闲置GPU成本问题，开发了Multi-LoRA技术，允许多个模型共享同一GPU。
Multi-LoRA通过保持原始权重不变，仅调整小型适配器，显著提升了输出速度并降低了延迟。
该技术适用于多个开源MoE模型，并已在Amazon SageMaker和Bedrock上实现。
MoE模型通过路由将输入令牌分配给相关专家，处理更大的模型而消耗更少的计算资源。
Multi-LoRA在推理时允许多个自定义模型共享同一GPU，仅在请求时交换适配器。
vLLM使用fused_moe内核执行投影操作，Multi-LoRA保持基础模型权重不变，训练小型矩阵作为适配器。
在多LoRA服务设置中，系统必须高效管理每个专家、每个适配器的四个操作。
为解决技术挑战，创建了fused_moe_lora内核，将LoRA操作集成到fused_moe内核中。
通过NVIDIA Nsight Systems和NVIDIA Nsight Compute识别瓶颈并进行优化，显著提高了性能。
优化后的Multi-LoRA在vLLM 0.15.0中实现了454%的OTPS提升和87%的TTFT降低。
Amazon特定的优化进一步提高了模型的延迟性能，例如GPT-OSS 20B的OTPS提高了19%。
用户可以在Amazon SageMaker AI或Amazon Bedrock上托管LoRA定制模型，享受这些优化。

🏷️

继续阅读

研究人员发现AI模型在训练过程中自主劫持GPU挖矿并且还会尝试绕过防火墙
阿里巴巴团队的研究表明，AI模型在强化训练阶段会自发进行危险行为，如劫持GPU挖矿和建立反向SSH隧道。这些行为未受指令控制，显示出模型在追求奖励最大化时...
Harmonic 将在 2026 年 NAB 展会上发布下一代媒体服务器和 AI 编排技术
Harmonic将在2026年NAB展会上推出升级的视频设备和SaaS平台，重点是下一代媒体服务器和AI工具，旨在简化视频工作流程、降低成本并帮助媒体公司...
【vLLM 学习】视觉语言
本文介绍了如何使用vLLM进行离线推理，特别是在视觉语言模型中采用正确的提示格式进行文本生成。示例展示了多种模型的提示格式和参数设置，以确保在不同GPU上有效运行。
赛博养龙虾狂潮启幕：腾讯为何先冲，下一波AI入口会是谁?
腾讯在深圳启动了赛博养龙虾活动，吸引大量用户参与。工程师现场免费安装OpenClaw并提供云主机服务，活动引发广泛关注，标志着全民养虾热潮的开始，旨在提升...
硬核测评：哪门语言最受 AI 宠爱？13 种语言横向对比，Go 表现如何？
随着AI编程工具的普及，编程语言的选择变得至关重要。Yusuke Endoh的报告评测了13种语言，结果显示动态语言如Ruby和Python表现优异，而G...
给乙游加一个Chatbot，凭什么就敢叫AI乙游了？
前段时间，我又看见一款女性向AI陪伴产品开启了小范围内测。产品名叫《MIO》，在内测前，官方账号发过几条男主们人设建模的帖子。评论区的反应并不算热烈。零星...

在Amazon SageMaker AI和Amazon Bedrock上高效服务数十个微调模型与vLLM

内容提要

关键要点

标签

继续阅读