亚马逊AWS官方博客 ·

大模型推理有妙招：Amazon SageMaker 让你事半功倍，伸缩自如

💡 原文中文，约5500字，阅读约需14分钟。

📝

内容提要

本文介绍了在Amazon SageMaker上进行大模型推理的完整流程，以Llama 3模型为例。通过代码示例展示了配置推理参数到部署Endpoint的全过程，并介绍了SageMaker Endpoint的自动伸缩能力。借助SageMaker，可以实现高效、弹性的大模型推理服务。

🎯

❓

Amazon SageMaker是一个全托管的机器学习平台，支持快速构建、训练和部署模型，提供多种推理方式和监控管理功能。

在SageMaker上进行大模型推理的步骤包括创建Notebook实例、配置推理参数、选择推理容器镜像、创建模型和部署推理Endpoint。

SageMaker支持实时推理、无服务器推理、异步推理和批量转换等多种推理方式，以满足不同的应用需求。

SageMaker Endpoint的自动伸缩能力可以根据工作负载动态调整实例数量，确保在负载增加时自动增加实例，负载减少时自动移除实例。

可以通过SageMaker控制台、AWS CLI和AWS SDK配置自动伸缩策略，推荐使用目标跟踪策略来管理推理集群。

LMI容器为大语言模型推理提供高性能支持，集成多种推理库，简化了不同推理技术栈的尝试和部署过程。

🏷️

微软首款高级推理人工智能问世
微软在2026年Build大会上发布了多款新AI模型，旗舰模型MAI-Thinking-1是其自主开发的重要进展，表现优异，基于干净数据训练。此外，还推出...
大模型企业扎堆IPO：智谱MiniMax冲刺A股，Anthropic抢先OpenAI递表
2026年6月，全球人工智能市场迎来大模型上市热潮。中国智谱与MiniMax启动A股IPO，美国Anthropic也向SEC提交上市申请。智谱计划募资15...
GPT-5.5、GPT-5.4和Codex已在Amazon Bedrock上正式可用
亚马逊云科技宣布，GPT-5.5、GPT-5.4和Codex已在Amazon Bedrock上线，企业可直接调用这些大模型以支持复杂任务，计费标准与Ope...
运营一个以人工智能为核心的工程组织
工程团队在使用Claude Code后，工作流程显著变化，传统规划被即时规划取代，强调原型和用户反馈。信息收集时优先询问Claude，代码审查中Claud...
Go 生态17年大浪淘沙：2026年最值得引入的10个“神仙级”QoL工具包
2026年，Go语言生态发生重大变革，推荐10个提升开发体验的工具包，包括sqlc（类型安全数据库编译器）、chi（轻量级路由器）、pgx（Postgre...
微软发布了Scout，这是一款基于OpenClaw构建的智能体
微软发布了Scout，一款基于OpenClaw的自主AI代理，能够在Microsoft 365中自动完成任务，如安排会议和管理日历。Scout标志着AI从...