亚马逊AWS官方博客 ·

从IDC到云上GPU：基于 Amazon EKS 的大模型推理混合云弹性部署实践

💡 原文中文，约17700字，阅读约需43分钟。

📝

内容提要

本文介绍了基于Amazon EKS和NVIDIA NIM的混合云大模型推理架构，强调本地GPU优先和云上弹性扩展的策略。通过KEDA和Karpenter实现自动扩缩容，优化成本和性能，满足中国客户需求。该方案解决了延迟、数据本地化和成本问题，提供统一监控和最佳实践，帮助企业有效利用现有GPU资源。

🎯

❓

通过构建双集群架构，结合本地 IDC 的 Kubernetes 集群和 AWS 上的 Amazon EKS 集群，实现本地 GPU 优先和云上弹性扩展。

KEDA 负责根据自定义指标触发 Pod 扩容，而 Karpenter 则负责动态创建和销毁 GPU 工作节点，实现自动扩缩容。

NVIDIA NIM 提供预优化的推理引擎，支持标准 OpenAI API，具有更高的吞吐量和更低的冷启动时间，适合弹性伸缩场景。

通过本地推理服务处理实时请求，确保低延迟，同时满足数据本地化需求，减少敏感数据的网络传输。

通过使用 Spot 实例和设置 KEDA 的 minReplicaCount 为 0，实现流量高峰时按需付费，流量回落时零成本待机。

方案能够有效利用已有的 GPU 投资，提供弹性扩展能力，满足制造业等对实时性和数据本地化的高要求。

🏷️

基于 Amazon ECS Fargate 和 Graviton 构建企业级多租户 AI Agent 平台：OpenClaw + Hermes 双 Agent 实践
本文介绍了基于Amazon ECS Fargate和Graviton构建的企业级多租户AI Agent平台，结合OpenClaw和Hermes两个开源Ag...
模型评估：证明您的路由策略确实有效
本文介绍了DigitalOcean的模型评估功能，帮助团队在真实工作负载下评估不同的推理策略。用户可以通过比较多种模型和路由策略来优化成本、延迟和输出质量...
SuperX首个美国AI推理云中心在丹佛投入运营
SuperX AI Technology Limited在丹佛正式启用首个美国AI推理云中心，基于NVIDIA技术，提供高性能、低延迟的AI推理服务，已被...
存之有序，治之有矩——Agent 记忆系统的工程实践与演进
本文探讨了Agent记忆系统的工程实践与演进，分析了记忆写入纪律、Prompt Cache冲突、跨模型容量、Embedding迁移及Agent自产Skil...
开始在 Amazon Bedrock 上使用 OpenAI GPT-5.5、GPT-5.4 模型和 Codex
OpenAI的GPT-5.5和GPT-5.4模型以及Codex已在Amazon Bedrock平台上线。这些模型专注于代码编写和复杂工作流程，支持开发者通...
Hugo 静态博客实现 Google AdSense 广告位懒加载：从原理到实践
本文介绍了如何通过懒加载技术优化Hugo博客中的广告位，解决广告过多导致页面加载缓慢的问题。使用HTML5的<template>标签和Inte...