小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
从IDC到云上GPU:基于 Amazon EKS 的大模型推理混合云弹性部署实践

本文介绍了基于Amazon EKS和NVIDIA NIM的混合云大模型推理架构,强调本地GPU优先和云上弹性扩展的策略。通过KEDA和Karpenter实现自动扩缩容,优化成本和性能,满足中国客户需求。该方案解决了延迟、数据本地化和成本问题,提供统一监控和最佳实践,帮助企业有效利用现有GPU资源。

从IDC到云上GPU:基于 Amazon EKS 的大模型推理混合云弹性部署实践

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2026-04-24T06:02:50Z

本文探讨了大模型推理的工程差异,强调训练与推理的不同需求。推理分为Prefill和Decode两个阶段,前者关注计算吞吐,后者关注延迟。KV Cache的使用显著提高了推理效率,减少了计算复杂度。文章还介绍了Continuous Batching和Prefill/Decode分离的优势,强调了高并发场景下的显存管理和性能优化策略。

【大模型基础设施工程】11:推理引擎基础

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z
Kimi新论文:把KVCache玩成新商业模式了

研究团队推出了Prefill-as-a-Service(PrFaaS),旨在解决大模型推理中的跨机房调度问题。该架构通过将Prefill计算卸载到专用集群,并利用普通以太网传输KV Cache,显著提升了吞吐量和降低了延迟。实验结果表明,PrFaaS在吞吐量上提升54%,P90延迟降低64%,有效支持长上下文场景。

Kimi新论文:把KVCache玩成新商业模式了

量子位
量子位 · 2026-04-19T10:19:45Z
AAAI 2026 | 美团技术团队学术论文精选

美团技术团队在AAAI会议上发表了8篇论文,涉及大模型推理、退火策略和强化学习等领域,提出了多种优化模型推理效率和性能的方法,为研究者提供理论和实践参考。

AAAI 2026 | 美团技术团队学术论文精选

美团技术团队
美团技术团队 · 2026-01-12T00:00:00Z
HyperAI超神经 x CCF ODTC丨vLLM助力大模型推理性能革新

第八届CCF开源创新大赛的「开源GPU创新生态赛」现已开始报名,旨在推动国产算力创新,聚焦GPU技术与开源生态的融合。赛事包括多个子赛题,特别是关注大模型推理性能优化的GPU开源生态挑战赛。开发者可通过验证任务提升国产GPU的生态适配,赛事时间为2025年9月15日至12月10日。

HyperAI超神经 x CCF ODTC丨vLLM助力大模型推理性能革新

HyperAI超神经
HyperAI超神经 · 2025-11-19T03:04:50Z

蚂蚁与港大联合推出PromptCoT 2.0框架,专注于任务合成与强化学习。实验表明,该框架在数学代码推理任务上达成新SOTA,显著提升模型性能。PromptCoT 2.0通过期望最大化优化生成更具挑战性的问题,并开源4.77M合成数据,推动大模型推理能力的提升。未来将探索环境合成与多模态任务。

全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品

量子位
量子位 · 2025-10-01T10:43:30Z
<span class=“js_title_inner“>LLM 推理经济学</span>

本文探讨了大模型推理的经济学,分析了推理成本的来源及其对盈利能力的影响。以LLaMA 3.3为例,讨论了模型参数、GPU需求及其对推理效率的影响。推理过程分为计算受限和内存受限两个阶段,强调了批处理在降低单位成本中的重要性。随着输入长度和批量规模的增加,推理成本与效率的关系变得复杂,理解这些因素对AI发展的经济影响至关重要。

<span class=“js_title_inner“>LLM 推理经济学</span>

OneFlow深度学习框架
OneFlow深度学习框架 · 2025-05-25T08:05:34Z
在 AWS Graviton 上运行大语言模型:CPU 推理性能实测与调优指南

随着 ARM 架构和量化技术的发展,CPU 在大模型推理中展现出性价比优势。AWS Graviton 实例与 llama.cpp 工具链的测试表明,CPU 在边缘推理和成本敏感型业务中表现优异,尤其在低延迟和小吞吐量任务中更具优势。Graviton 系列的硬件和软件优化进一步提升了 CPU 性能,未来在大模型推理领域有望持续发挥潜力。

在 AWS Graviton 上运行大语言模型:CPU 推理性能实测与调优指南

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-03-17T04:04:16Z

本研究提出了一种名为SpargeAttn的稀疏注意力机制,旨在解决大模型推理中的时间复杂度问题。该方法通过在线过滤器快速预测注意力图,跳过部分计算,从而显著提高推理速度而不影响性能。

Sparse Attention (SpargeAttn): Accurate Sparse Attention for Accelerating Inference in Any Model

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-25T00:00:00Z

10月26日,OSC源创会将在北京举行,重点讨论高性能计算与大模型推理。华为、商汤等专家将分享优化经验,探讨计算需求与能耗管理,并介绍openMind平台及其低成本大模型应用功能。

HyperAI超神经 x 开源中国丨高性能计算与大模型推理,北京见!

HyperAI超神经
HyperAI超神经 · 2024-10-24T03:00:24Z

本研究提出了TPI-LLM系统,旨在解决边缘设备在执行70B规模大模型推理时的计算、内存和带宽限制。该系统通过优化内存调度和通信管理,显著降低了推理延迟和内存占用。

TPI-LLM: Efficiently Serving 70B-Scale Large Models on Low-Resource Edge Devices

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-01T00:00:00Z

燧原科技的S60人工智能推理加速卡通过大模型推理I级兼容性测试,成为国内首家适配认证的芯片厂商。S60在Llama-13B模型上表现良好,可广泛应用于图像、文本生成、搜索与推荐、文本、图像和语音识别等场景。

燧原科技与飞桨大模型工具链完成推理 I 级适配

百度大脑
百度大脑 · 2024-09-06T11:36:22Z
大模型推理有妙招:Amazon SageMaker 让你事半功倍,伸缩自如

本文介绍了在Amazon SageMaker上进行大模型推理的完整流程,以Llama 3模型为例。通过代码示例展示了配置推理参数到部署Endpoint的全过程,并介绍了SageMaker Endpoint的自动伸缩能力。借助SageMaker,可以实现高效、弹性的大模型推理服务。

大模型推理有妙招:Amazon SageMaker 让你事半功倍,伸缩自如

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2024-08-22T15:30:06Z

浪潮信息成功在通用服务器上运行了千亿参数的大模型推理,只用了4颗CPU,无需GPU或其他AI加速卡。通用服务器的成本优势显著,且内存容量大,适合部署大模型。通过量化技术和并行计算环境的优化,解决了CPU与内存之间的通信需求。CPU的AI算力性能也在提升,能满足大模型推理的需求。这种通用算力方案将成为企业拥有AI的新起点。

想跑千亿大模型?算力厂商放大招!CPU通用服务器成为新选择

量子位
量子位 · 2024-08-01T08:22:55Z
[译] 大模型推理的极限:理论分析、数学建模与 CPU/GPU 实测(2024)

本文分析了大模型推理的速度瓶颈,探讨了访存带宽与算力的关系。实测数据表明,推理速度受限于访存带宽,尤其在生成文本时,模型逐个处理token,导致并行性不足。以Mistral 7B为例,计算推理所需的最小时间,强调低精度量化可降低延迟。建议在设计推理系统时考虑访存带宽的影响,以优化性能。

[译] 大模型推理的极限:理论分析、数学建模与 CPU/GPU 实测(2024)

ARTHURCHIAO'S BLOG
ARTHURCHIAO'S BLOG · 2024-04-06T00:00:00Z

本文介绍了大模型推理在企业基础设施中的挑战,以及Fluid项目在云原生AIGC模型推理场景中的优化方案。Fluid提供了数据缓存、自动化、加速和数据编排等核心能力,通过分布式缓存、弹性伸缩、数据感知调度和数据流编排来提升性能和降低成本。Fluid的Python SDK可以进一步提升GPU实例的带宽能力。

云原生场景下,AIGC 模型服务的工程挑战和应对

阿里云云栖号
阿里云云栖号 · 2024-01-08T07:18:42Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码