小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文探讨了推理服务层的构建与优化,重点在多模型环境中实现高效资源管理和请求处理。内容涵盖服务层选型、自动扩缩容、LoRA多租户热加载及灾备策略。通过实际案例分析,指出生产环境中的常见挑战及解决方案,强调推理服务的稳定性和可维护性。

【大模型基础设施工程】21:推理服务化

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z
使用Amazon SageMaker Hyperpod Cluster部署whisper模型

本文介绍了如何在 Amazon SageMaker HyperPod 集群中部署 Whisper 模型,利用 Triton Inference Server 提供高效推理服务。通过容器化部署,解决了异构 GPU 部署和请求调度的复杂性,实现了灵活的资源管理与监控。

使用Amazon SageMaker Hyperpod Cluster部署whisper模型

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2026-03-24T06:17:18Z
Modular:BentoML与Modular合并

BentoML与Modular合并,旨在简化高性能推理服务,提升AI模型部署效率。两者共享开源基础,优化AI基础设施,服务超过10,000家组织。BentoML将继续作为开源项目,确保用户稳定性并推动平台整合。

Modular:BentoML与Modular合并

Modular Blog
Modular Blog · 2026-02-10T00:00:00Z
GPU 狂飙!Elastic 推理服务 (EIS):适用于 Elasticsearch 的 GPU 加速推理

Elastic推出了Elastic Inference Service (EIS),为Elasticsearch提供GPU加速推理功能,支持多种语言模型和语义搜索,提升开发者体验。该服务利用NVIDIA GPU实现低延迟和高吞吐量,降低运营开销,未来将推出更多模型和扩展服务。

GPU 狂飙!Elastic 推理服务 (EIS):适用于 Elasticsearch 的 GPU 加速推理

Elastic Blog
Elastic Blog · 2025-10-09T00:00:00Z

在 AI 原生时代,Kubernetes 面临高级 GPU 调度、数据管道优化和推理服务管理等新挑战,需要与 AI 生态深度融合,以维持其在混合计算基础设施中的核心地位。

Kubernetes 在 AI Native 时代的挑战与转型

dotNET跨平台
dotNET跨平台 · 2025-09-06T00:00:52Z

本文探讨了Solo.io开源项目如何支持Kubernetes AI应用,提升推理服务和自动化运维能力,重点介绍了kgateway、kagent、agentgateway和kmcp四个项目及其在AI场景下的独特功能和企业应用价值,助力智能化转型。

Kubernetes AI 应用基础设施开源实践与创新:Solo.io 开源项目研究

dotNET跨平台
dotNET跨平台 · 2025-09-03T23:59:09Z

本研究探讨了大语言模型推理服务中的高延迟和低吞吐量问题,提出了实例级和集群级的创新方法,并分析了模型部署、请求调度和负载均衡等关键环节,优化后显著提升了推理服务性能。

Taming the Titans: A Survey of Efficient Inference Services for Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-28T00:00:00Z

Cerebras的晶片架构通过超大规模设计,实现了比传统GPU快20倍的AI推理性能。其独特的内存带宽和计算架构显著提升了生成AI的推理效率,支持更复杂的应用和更高的用户参与度。此外,Cerebras还推出了推理服务,用户可以体验其强大性能。

HC2024-S7:高性能处理器第二部分

Josherich的博客
Josherich的博客 · 2025-02-24T00:00:01Z

《2024 中国开源开发者报告》聚焦于 AI 大模型技术的演进,分析开发者中间件工具生态,涵盖模型托管、推理服务及应用工具的发展,探讨生成式 AI 应用的构建与评估方法,并展望未来 AI 技术的深入应用。

AI开发者中间件工具生态2024年总结

dotNET跨平台
dotNET跨平台 · 2025-02-14T00:02:53Z

自DeepSeek R1发布以来,其强大性能引发广泛关注,导致官网服务器负担加重。为应对这一挑战,硅基流动与华为云联合推出基于昇腾云的DeepSeek R1 & V3推理服务,标志着国产GPU替代英伟达GPU的重要进展。此次合作有望改善国产GPU的适配性问题。

一文速览DeepSeek-R1的本地部署——可联网、可实现本地知识库问答:包括671B满血版和各个蒸馏版的部署(含单卡4090部署671B)

结构之法 算法之道
结构之法 算法之道 · 2025-02-03T07:29:02Z

DeepSeek-R1和DeepSeek-V3开源后备受关注,SiliconCloud平台上线,提供基于华为云的推理服务,支持零部署,稳定运行,开发者可轻松调用API,享受优惠价格,致力于提供多种大模型服务。

首发!硅基流动 x 华为云联合推出基于昇腾云的 DeepSeek R1 & V3 推理服务

OneFlow深度学习框架
OneFlow深度学习框架 · 2025-02-01T09:53:28Z
<span class=“js_title_inner“>首发!硅基流动 x 华为云联合推出基于昇腾云的 DeepSeek R1 & V3 推理服务</span>

DeepSeek-R1和DeepSeek-V3模型已在SiliconCloud平台上线,基于华为云昇腾服务,提供高效的推理服务。该平台支持零部署门槛,开发者可轻松调用API,享受优惠价格,并提供多种开源大模型,旨在提升AI应用开发体验。

<span class=“js_title_inner“>首发!硅基流动 x 华为云联合推出基于昇腾云的 DeepSeek R1 & V3 推理服务</span>

OneFlow深度学习框架
OneFlow深度学习框架 · 2025-02-01T09:53:28Z
硅基流动×华为云联合推出基于昇腾云的DeepSeek R1&V3推理服务

DeepSeek-R1和DeepSeek-V3大模型已开源,硅基流动与华为云联合推出SiliconCloud云服务平台,提供稳定的推理服务,简化开发者的部署流程,提升应用开发体验。

硅基流动×华为云联合推出基于昇腾云的DeepSeek R1&V3推理服务

机器之心
机器之心 · 2025-02-01T08:03:13Z

本文介绍了制作和推送Qwen1.5-1.8B-Chat模型Docker镜像的步骤,包括下载模型、编写Dockerfile、构建多架构镜像、设置推理服务和测试接口。

使用 vLLM 应用验证推理节点

陈少文的博客
陈少文的博客 · 2025-01-16T00:00:00Z
在 Kubernetes 中 Autoscale LLM 的实践

本文介绍了2023年推出的无服务器大型语言模型推理平台ModelZ及其核心组件OpenModelZ,重点讨论了在Kubernetes上部署LLMs的挑战,如冷启动、自动扩展和负载均衡。用户可通过简单API上传模型,系统自动管理推理服务的生命周期,优化模型和镜像加载以提升性能。

在 Kubernetes 中 Autoscale LLM 的实践

高策
高策 · 2024-12-30T15:00:00Z

豆包大模型在2024年技术进展中,综合能力已与GPT-4o对齐,推理服务价格仅为其八分之一。该模型在语言、视频生成和语音对话等领域表现优异,推出多款新模型,提升理解精度和生成质量。团队与高校合作,推动AI基础研究,日均调用量显著增长。

豆包大模型披露2024技术进展,亮相7个月综合能力全面对齐GPT-4o

量子位
量子位 · 2024-12-30T07:13:52Z

本研究提出了ALISE框架,旨在解决大语言模型服务系统中的调度问题,通过优化作业优先级来减少排队延迟。实验结果表明,在相同延迟下,ALISE显著提高了推理服务的吞吐量。

ALISE: Accelerating Large Language Model Services through Predictive Scheduling

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-31T00:00:00Z

TensorRT-LLM是一个简化模型转换为TensorRT格式的工具,支持特定的GPU模型,旨在更轻松地在TensorRT上运行大型模型。文章提供了配置编译环境和生成TensorRT格式模型的说明。它还解释了如何使用Rouge指标测试推理和评估模型的性能。文章还介绍了Triton Server,一个可扩展的推理框架,支持多个后端,包括TensorRT-LLM。它解释了如何使用Triton Server与TensorRT-LLM进行配置和使用,包括模型加载和版本控制。最后,它演示了如何启动推理服务,进行客户端调用,并使用Grafana监控性能指标。

容器下在 Triton Server 中使用 TensorRT-LLM 进行推理

陈少文的博客
陈少文的博客 · 2024-02-03T08:05:48Z
通过 Optimum Neuron 加速 Llama 2 和 SDXL 在 Inf2 和 Trn1 上部署推理

Optimum Neuron支持在Neuron设备上编译SDXL Pipeline组件和Llama 2模型,并提供NeuronModel类和TGI支持,帮助用户将大模型部署到亚马逊云科技的自研芯片上进行推理服务。

通过 Optimum Neuron 加速 Llama 2 和 SDXL 在 Inf2 和 Trn1 上部署推理

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2023-09-25T06:18:57Z

Meta宣布开源大语言模型Llama2,适用于研究和商业用途。Llama-2-Chat在评测中表现优秀,阿里云机器学习平台PAI提供了Llama2模型的全量微调和推理服务。用户可以通过PAI快速开始页面选择模型、部署模型、调用推理服务,或进行模型微调训练。使用PAI-DSW模块进行全参数微调训练和使用PAI-EAS模块进行快速部署WebUI的最佳实践。

快速玩转 Llama2!阿里云机器学习 PAI 推出最佳实践

阿里云云栖号
阿里云云栖号 · 2023-07-26T07:51:32Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码