小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
从IDC到云上GPU:基于 Amazon EKS 的大模型推理混合云弹性部署实践

本文介绍了基于Amazon EKS和NVIDIA NIM的混合云大模型推理架构,强调本地GPU优先和云上弹性扩展的策略。通过KEDA和Karpenter实现自动扩缩容,优化成本和性能,满足中国客户需求。该方案解决了延迟、数据本地化和成本问题,提供统一监控和最佳实践,帮助企业有效利用现有GPU资源。

从IDC到云上GPU:基于 Amazon EKS 的大模型推理混合云弹性部署实践

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2026-04-24T06:02:50Z

本文探讨了大模型推理的工程差异,强调训练与推理的不同需求。推理分为Prefill和Decode两个阶段,前者关注计算吞吐,后者关注延迟。KV Cache的使用显著提高了推理效率,减少了计算复杂度。文章还介绍了Continuous Batching和Prefill/Decode分离的优势,强调了高并发场景下的显存管理和性能优化策略。

【大模型基础设施工程】11:推理引擎基础

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z
Kimi新论文:把KVCache玩成新商业模式了

研究团队推出了Prefill-as-a-Service(PrFaaS),旨在解决大模型推理中的跨机房调度问题。该架构通过将Prefill计算卸载到专用集群,并利用普通以太网传输KV Cache,显著提升了吞吐量和降低了延迟。实验结果表明,PrFaaS在吞吐量上提升54%,P90延迟降低64%,有效支持长上下文场景。

Kimi新论文:把KVCache玩成新商业模式了

量子位
量子位 · 2026-04-19T10:19:45Z
AAAI 2026 | 美团技术团队学术论文精选

美团技术团队在AAAI会议上发表了8篇论文,涉及大模型推理、退火策略和强化学习等领域,提出了多种优化模型推理效率和性能的方法,为研究者提供理论和实践参考。

AAAI 2026 | 美团技术团队学术论文精选

美团技术团队
美团技术团队 · 2026-01-12T00:00:00Z
HyperAI超神经 x CCF ODTC丨vLLM助力大模型推理性能革新

第八届CCF开源创新大赛的「开源GPU创新生态赛」现已开始报名,旨在推动国产算力创新,聚焦GPU技术与开源生态的融合。赛事包括多个子赛题,特别是关注大模型推理性能优化的GPU开源生态挑战赛。开发者可通过验证任务提升国产GPU的生态适配,赛事时间为2025年9月15日至12月10日。

HyperAI超神经 x CCF ODTC丨vLLM助力大模型推理性能革新

HyperAI超神经
HyperAI超神经 · 2025-11-19T03:04:50Z

蚂蚁与港大联合推出PromptCoT 2.0框架,专注于任务合成与强化学习。实验表明,该框架在数学代码推理任务上达成新SOTA,显著提升模型性能。PromptCoT 2.0通过期望最大化优化生成更具挑战性的问题,并开源4.77M合成数据,推动大模型推理能力的提升。未来将探索环境合成与多模态任务。

全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品

量子位
量子位 · 2025-10-01T10:43:30Z
<span class=“js_title_inner“>LLM 推理经济学</span>

本文探讨了大模型推理的经济学,分析了推理成本的来源及其对盈利能力的影响。以LLaMA 3.3为例,讨论了模型参数、GPU需求及其对推理效率的影响。推理过程分为计算受限和内存受限两个阶段,强调了批处理在降低单位成本中的重要性。随着输入长度和批量规模的增加,推理成本与效率的关系变得复杂,理解这些因素对AI发展的经济影响至关重要。

<span class=“js_title_inner“>LLM 推理经济学</span>

OneFlow深度学习框架
OneFlow深度学习框架 · 2025-05-25T08:05:34Z
在 AWS Graviton 上运行大语言模型:CPU 推理性能实测与调优指南

随着 ARM 架构和量化技术的发展,CPU 在大模型推理中展现出性价比优势。AWS Graviton 实例与 llama.cpp 工具链的测试表明,CPU 在边缘推理和成本敏感型业务中表现优异,尤其在低延迟和小吞吐量任务中更具优势。Graviton 系列的硬件和软件优化进一步提升了 CPU 性能,未来在大模型推理领域有望持续发挥潜力。

在 AWS Graviton 上运行大语言模型:CPU 推理性能实测与调优指南

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-03-17T04:04:16Z

本研究提出了一种名为SpargeAttn的稀疏注意力机制,旨在解决大模型推理中的时间复杂度问题。该方法通过在线过滤器快速预测注意力图,跳过部分计算,从而显著提高推理速度而不影响性能。

Sparse Attention (SpargeAttn): Accurate Sparse Attention for Accelerating Inference in Any Model

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-25T00:00:00Z

10月26日,OSC源创会将在北京举行,重点讨论高性能计算与大模型推理。华为、商汤等专家将分享优化经验,探讨计算需求与能耗管理,并介绍openMind平台及其低成本大模型应用功能。

HyperAI超神经 x 开源中国丨高性能计算与大模型推理,北京见!

HyperAI超神经
HyperAI超神经 · 2024-10-24T03:00:24Z

燧原科技的S60人工智能推理加速卡通过大模型推理I级兼容性测试,成为国内首家适配认证的芯片厂商。S60在Llama-13B模型上表现良好,可广泛应用于图像、文本生成、搜索与推荐、文本、图像和语音识别等场景。

燧原科技与飞桨大模型工具链完成推理 I 级适配

百度大脑
百度大脑 · 2024-09-06T11:36:22Z
大模型推理有妙招:Amazon SageMaker 让你事半功倍,伸缩自如

本文介绍了在Amazon SageMaker上进行大模型推理的完整流程,以Llama 3模型为例。通过代码示例展示了配置推理参数到部署Endpoint的全过程,并介绍了SageMaker Endpoint的自动伸缩能力。借助SageMaker,可以实现高效、弹性的大模型推理服务。

大模型推理有妙招:Amazon SageMaker 让你事半功倍,伸缩自如

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2024-08-22T15:30:06Z

浪潮信息成功在通用服务器上运行了千亿参数的大模型推理,只用了4颗CPU,无需GPU或其他AI加速卡。通用服务器的成本优势显著,且内存容量大,适合部署大模型。通过量化技术和并行计算环境的优化,解决了CPU与内存之间的通信需求。CPU的AI算力性能也在提升,能满足大模型推理的需求。这种通用算力方案将成为企业拥有AI的新起点。

想跑千亿大模型?算力厂商放大招!CPU通用服务器成为新选择

量子位
量子位 · 2024-08-01T08:22:55Z

本文介绍了大模型推理在企业基础设施中的挑战,以及Fluid项目在云原生AIGC模型推理场景中的优化方案。Fluid提供了数据缓存、自动化、加速和数据编排等核心能力,通过分布式缓存、弹性伸缩、数据感知调度和数据流编排来提升性能和降低成本。Fluid的Python SDK可以进一步提升GPU实例的带宽能力。

云原生场景下,AIGC 模型服务的工程挑战和应对

阿里云云栖号
阿里云云栖号 · 2024-01-08T07:18:42Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码