小红花·文摘

从IDC到云上GPU：基于 Amazon EKS 的大模型推理混合云弹性部署实践

亚马逊AWS官方博客 ·

本文探讨了大模型推理的工程差异，强调训练与推理的不同需求。推理分为Prefill和Decode两个阶段，前者关注计算吞吐，后者关注延迟。KV Cache的使用显著提高了推理效率，减少了计算复杂度。文章还介绍了Continuous Batching和Prefill/Decode分离的优势，强调了高并发场景下的显存管理和性能优化策略。

【大模型基础设施工程】11：推理引擎基础

土法炼钢兴趣小组的博客 ·

Kimi新论文：把KVCache玩成新商业模式了

量子位 ·

AAAI 2026 | 美团技术团队学术论文精选

美团技术团队 ·

HyperAI超神经 x CCF ODTC丨vLLM助力大模型推理性能革新

HyperAI超神经 ·

蚂蚁与港大联合推出PromptCoT 2.0框架，专注于任务合成与强化学习。实验表明，该框架在数学代码推理任务上达成新SOTA，显著提升模型性能。PromptCoT 2.0通过期望最大化优化生成更具挑战性的问题，并开源4.77M合成数据，推动大模型推理能力的提升。未来将探索环境合成与多模态任务。

全新合成框架SOTA：强化学习当引擎，任务合成当燃料，蚂蚁港大联合出品

量子位 ·

＜span class=“js_title_inner“＞LLM 推理经济学＜/span＞

OneFlow深度学习框架 ·

在 AWS Graviton 上运行大语言模型：CPU 推理性能实测与调优指南

亚马逊AWS官方博客 ·

本研究提出了一种名为SpargeAttn的稀疏注意力机制，旨在解决大模型推理中的时间复杂度问题。该方法通过在线过滤器快速预测注意力图，跳过部分计算，从而显著提高推理速度而不影响性能。

Sparse Attention (SpargeAttn): Accurate Sparse Attention for Accelerating Inference in Any Model

BriefGPT - AI 论文速递 ·

10月26日，OSC源创会将在北京举行，重点讨论高性能计算与大模型推理。华为、商汤等专家将分享优化经验，探讨计算需求与能耗管理，并介绍openMind平台及其低成本大模型应用功能。

HyperAI超神经 x 开源中国丨高性能计算与大模型推理，北京见！

HyperAI超神经 ·

燧原科技的S60人工智能推理加速卡通过大模型推理I级兼容性测试，成为国内首家适配认证的芯片厂商。S60在Llama-13B模型上表现良好，可广泛应用于图像、文本生成、搜索与推荐、文本、图像和语音识别等场景。

燧原科技与飞桨大模型工具链完成推理 I 级适配

百度大脑 ·

大模型推理有妙招：Amazon SageMaker 让你事半功倍，伸缩自如

亚马逊AWS官方博客 ·

浪潮信息成功在通用服务器上运行了千亿参数的大模型推理，只用了4颗CPU，无需GPU或其他AI加速卡。通用服务器的成本优势显著，且内存容量大，适合部署大模型。通过量化技术和并行计算环境的优化，解决了CPU与内存之间的通信需求。CPU的AI算力性能也在提升，能满足大模型推理的需求。这种通用算力方案将成为企业拥有AI的新起点。

想跑千亿大模型？算力厂商放大招！CPU通用服务器成为新选择

量子位 ·

本文介绍了大模型推理在企业基础设施中的挑战，以及Fluid项目在云原生AIGC模型推理场景中的优化方案。Fluid提供了数据缓存、自动化、加速和数据编排等核心能力，通过分布式缓存、弹性伸缩、数据感知调度和数据流编排来提升性能和降低成本。Fluid的Python SDK可以进一步提升GPU实例的带宽能力。

云原生场景下，AIGC 模型服务的工程挑战和应对

阿里云云栖号 ·