小红花·文摘

本文探讨了推理服务层的构建与优化，重点在多模型环境中实现高效资源管理和请求处理。内容涵盖服务层选型、自动扩缩容、LoRA多租户热加载及灾备策略。通过实际案例分析，指出生产环境中的常见挑战及解决方案，强调推理服务的稳定性和可维护性。

使用Amazon SageMaker Hyperpod Cluster部署whisper模型

亚马逊AWS官方博客 ·

GPU 狂飙！Elastic 推理服务 (EIS)：适用于 Elasticsearch 的 GPU 加速推理

Elastic Blog ·

在 AI 原生时代，Kubernetes 面临高级 GPU 调度、数据管道优化和推理服务管理等新挑战，需要与 AI 生态深度融合，以维持其在混合计算基础设施中的核心地位。

Kubernetes 在 AI Native 时代的挑战与转型

dotNET跨平台 ·

本文探讨了Solo.io开源项目如何支持Kubernetes AI应用，提升推理服务和自动化运维能力，重点介绍了kgateway、kagent、agentgateway和kmcp四个项目及其在AI场景下的独特功能和企业应用价值，助力智能化转型。

Kubernetes AI 应用基础设施开源实践与创新：Solo.io 开源项目研究

dotNET跨平台 ·

本研究探讨了大语言模型推理服务中的高延迟和低吞吐量问题，提出了实例级和集群级的创新方法，并分析了模型部署、请求调度和负载均衡等关键环节，优化后显著提升了推理服务性能。

Taming the Titans: A Survey of Efficient Inference Services for Large Language Models

BriefGPT - AI 论文速递 ·

Cerebras的晶片架构通过超大规模设计，实现了比传统GPU快20倍的AI推理性能。其独特的内存带宽和计算架构显著提升了生成AI的推理效率，支持更复杂的应用和更高的用户参与度。此外，Cerebras还推出了推理服务，用户可以体验其强大性能。

HC2024-S7：高性能处理器第二部分

Josherich的博客 ·

《2024 中国开源开发者报告》聚焦于 AI 大模型技术的演进，分析开发者中间件工具生态，涵盖模型托管、推理服务及应用工具的发展，探讨生成式 AI 应用的构建与评估方法，并展望未来 AI 技术的深入应用。

AI开发者中间件工具生态2024年总结

dotNET跨平台 ·

自DeepSeek R1发布以来，其强大性能引发广泛关注，导致官网服务器负担加重。为应对这一挑战，硅基流动与华为云联合推出基于昇腾云的DeepSeek R1 & V3推理服务，标志着国产GPU替代英伟达GPU的重要进展。此次合作有望改善国产GPU的适配性问题。

一文速览DeepSeek-R1的本地部署——可联网、可实现本地知识库问答：包括671B满血版和各个蒸馏版的部署(含单卡4090部署671B)

结构之法算法之道 ·

DeepSeek-R1和DeepSeek-V3开源后备受关注，SiliconCloud平台上线，提供基于华为云的推理服务，支持零部署，稳定运行，开发者可轻松调用API，享受优惠价格，致力于提供多种大模型服务。

首发！硅基流动 x 华为云联合推出基于昇腾云的 DeepSeek R1 & V3 推理服务

OneFlow深度学习框架 ·

＜span class=“js_title_inner“＞首发！硅基流动 x 华为云联合推出基于昇腾云的 DeepSeek R1 &amp； V3 推理服务＜/span＞

OneFlow深度学习框架 ·

硅基流动×华为云联合推出基于昇腾云的DeepSeek R1&V3推理服务

机器之心 ·

本文介绍了制作和推送Qwen1.5-1.8B-Chat模型Docker镜像的步骤，包括下载模型、编写Dockerfile、构建多架构镜像、设置推理服务和测试接口。

在 Kubernetes 中 Autoscale LLM 的实践

高策 ·

豆包大模型在2024年技术进展中，综合能力已与GPT-4o对齐，推理服务价格仅为其八分之一。该模型在语言、视频生成和语音对话等领域表现优异，推出多款新模型，提升理解精度和生成质量。团队与高校合作，推动AI基础研究，日均调用量显著增长。

豆包大模型披露2024技术进展，亮相7个月综合能力全面对齐GPT-4o

量子位 ·

本研究提出了ALISE框架，旨在解决大语言模型服务系统中的调度问题，通过优化作业优先级来减少排队延迟。实验结果表明，在相同延迟下，ALISE显著提高了推理服务的吞吐量。

ALISE: Accelerating Large Language Model Services through Predictive Scheduling

BriefGPT - AI 论文速递 ·

TensorRT-LLM是一个简化模型转换为TensorRT格式的工具，支持特定的GPU模型，旨在更轻松地在TensorRT上运行大型模型。文章提供了配置编译环境和生成TensorRT格式模型的说明。它还解释了如何使用Rouge指标测试推理和评估模型的性能。文章还介绍了Triton Server，一个可扩展的推理框架，支持多个后端，包括TensorRT-LLM。它解释了如何使用Triton Server与TensorRT-LLM进行配置和使用，包括模型加载和版本控制。最后，它演示了如何启动推理服务，进行客户端调用，并使用Grafana监控性能指标。

【大模型基础设施工程】21：推理服务化

使用Amazon SageMaker Hyperpod Cluster部署whisper模型

Modular：BentoML与Modular合并

GPU 狂飙！Elastic 推理服务 (EIS)：适用于 Elasticsearch 的 GPU 加速推理

Kubernetes 在 AI Native 时代的挑战与转型

Kubernetes AI 应用基础设施开源实践与创新：Solo.io 开源项目研究

Taming the Titans: A Survey of Efficient Inference Services for Large Language Models

HC2024-S7：高性能处理器第二部分

AI开发者中间件工具生态2024年总结

一文速览DeepSeek-R1的本地部署——可联网、可实现本地知识库问答：包括671B满血版和各个蒸馏版的部署(含单卡4090部署671B)

首发！硅基流动 x 华为云联合推出基于昇腾云的 DeepSeek R1 & V3 推理服务

＜span class=“js_title_inner“＞首发！硅基流动 x 华为云联合推出基于昇腾云的 DeepSeek R1 &amp； V3 推理服务＜/span＞

硅基流动×华为云联合推出基于昇腾云的DeepSeek R1&V3推理服务

使用 vLLM 应用验证推理节点

在 Kubernetes 中 Autoscale LLM 的实践

豆包大模型披露2024技术进展，亮相7个月综合能力全面对齐GPT-4o

ALISE: Accelerating Large Language Model Services through Predictive Scheduling

容器下在 Triton Server 中使用 TensorRT-LLM 进行推理

通过 Optimum Neuron 加速 Llama 2 和 SDXL 在 Inf2 和 Trn1 上部署推理

快速玩转 Llama2！阿里云机器学习 PAI 推出最佳实践