小红花·文摘

一分钟读论文：《多智能体语言系统的端到端通信优化》

Micropaper ·

本文探讨了长上下文模型的工程挑战与解决方案，包括位置编码、注意力计算复杂度、训练策略和推理优化。随着上下文长度增加，模型面临计算复杂度和显存限制。采用RoPE、YaRN等技术扩展位置编码，并结合线性注意力和稀疏注意力优化计算效率。在训练方面，采用短预训练与长继续预训练相结合的策略，推理时利用前缀缓存和KV压缩等技术提高效率。

英特尔发布 OpenVINO 2026.1，新增 Llama.cpp 后端支持和硬件支持

实时互动网 ·

视频生成推理加速实践：基于 torch.compile 的整图编译优化

实时互动网 ·

明日开播！从前沿动态到实战经验，vLLM 推理优化实战 Meetup 定档 10 月 25 日

HyperAI超神经 ·

wavlm-large模型onnx和mnn版本的导出与使用

Yunfeng's Simple Blog ·

PaddleMIX推出Fast-Diffusers工具箱，通过模型蒸馏和推理优化，将推理速度提升超过2倍。FLUX-Lightning模型实现4步快速生成，效果超越现有模型，结合CINN技术，推理时间缩短至1.66秒。未来将继续优化推理效率，推动扩散模型的应用。

PaddleMIX推出扩散模型推理加速Fast-Diffusers：自研蒸馏加速方法FLUX-Lightning实现4步图像生成

百度大脑 ·

Mamba核心作者Tri Dao提出了两种新注意力机制GTA和GLA，旨在优化推理，解码速度和吞吐量提升2倍，同时减少内存使用，保持模型性能，解决长上下文推理中的内存和计算瓶颈问题。

Mamba核心作者新作:取代DeepSeek在用的注意力机制，专为推理打造

量子位 ·

传统预训练正走向终结，推理优化与后训练提升有限，大模型今后如何突破发展瓶颈？

机器之心 ·

三思而后行，让大模型推理更强的秘密是「THINK TWICE」？

机器之心 ·

本研究提出了一种先进的多深度神经网络模型调度策略（ADMS），旨在优化移动设备上的多DNN推理。该策略通过离线构建最优子图划分，实现硬件支持与调度平衡，并根据实时条件动态调整工作负载，显著提高处理器利用率和性能。实验结果表明，ADMS在推理延迟上比传统框架减少了4.04倍。

Optimizing Multi-DNN Inference on Mobile Devices through Heterogeneous Processor Co-Execution

BriefGPT - AI 论文速递 ·

本文提出了一种元推理器框架，旨在优化大语言模型的推理时间和计算开销。该框架基于人类元认知理论，通过动态推理优化机制，灵活评估推理进展并选择最佳策略，从而提高推理效率，适用于推理密集型任务。

Meta-Reasoner: Dynamic Guidance for Optimizing Inference Time in Large Language Models

BriefGPT - AI 论文速递 ·

本文提供了成为大型语言模型（LLM）工程师的学习路线图，分为基础知识和高级技能两部分。基础知识包括机器学习、深度学习和自然语言处理的基本概念，掌握LLM API、向量数据库和检索增强生成（RAG）技术。高级技能则深入RAG和LLM评估，优化推理过程，以应对实际挑战。

成为大型语言模型（LLM）工程师的终极学习路线图

KDnuggets ·

本研究提出LaTent推理优化框架（LaTRO），旨在解决大型语言模型在多步骤复杂推理任务中的不足。通过变分方法优化推理过程，实验证明LaTRO显著提升了推理准确率。

Language Models as Implicit Reasoners: Unlocking Potential Reasoning Abilities through Self-Reinforcement

BriefGPT - AI 论文速递 ·

本文探讨了在6G边缘部署大型语言模型的潜力，分析了多模态语言模型的应用及架构。研究提出了边缘训练和推理技术，以提高模型性能和资源利用效率，并通过新框架和算法优化推理过程，解决成本与性能的平衡问题，提升边缘设备上模型的效率和准确性。

CE-CoLLM：通过云-边缘协作实现高效和自适应的大型语言模型

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLM）在推理和内存管理中的优化方法，提出了SqueezeLLM量化框架和动态内存压缩（DMC），实现了高效的推理性能和内存节省。同时，研究提出了NACL框架和GemFilter算法，显著提高了长文本处理的效率，减少了内存使用，提升了吞吐量，为未来LLM的发展提供了新方向。

Locret：通过训练保留头增强长上下文LLM推断中的驱逐

BriefGPT - AI 论文速递 ·

本研究评估了TPU在神经网络推理中的优势，显示其速度比CPU和GPU快15-30倍，能效显著提升。文章介绍了多种推理优化技术，如DeepSpeed Inference、FastCoT和ExFlow，以提高推理速度和吞吐量，降低延迟。Helix系统通过优化模型放置和请求调度，显著提升了服务吞吐量并降低延迟。

Kraken：高效多设备推理的内在并行转换器

BriefGPT - AI 论文速递 ·

本文介绍了优化大型语言模型推理过程中键值缓存的方法，包括KCache、SnapKV和PyramidInfer。这些方法通过量化和自适应缓存技术，显著降低了内存占用和计算开销，同时保持模型性能。实验表明，这些技术在处理长输入序列时有效提升了吞吐量，并减少了GPU内存消耗。

PAI-Blade是PAI推出的通用推理优化工具，可以通过模型系统联合优化，使模型达到最优推理性能。PAI-Blade依托于完全动态尺寸的AI编译器BladeDISC和基于深度学习自动调度的高性能计算库BlaDNN，为包括图像生成模型Stable Diffusion在内的众多模型提供自动的高性能推理优化。使用PAI-Blade优化Stable Diffusion具有高性能、完全动态shape支持和易用性、可扩展性三点优势。文章还介绍了PAI-Blade在社区流行的Text2Img pipeline中的使用方法，并给出了A100和A10的性能对比和推理结果验证。最后，文章展望了PAI-Blade团队未来的工作方向。

使用 PAI-Blade 优化 Stable Diffusion 推理流程

阿里云云栖号 ·

一分钟读论文：《多智能体语言系统的端到端通信优化》

【大模型基础设施工程】16：长上下文工程

英特尔发布 OpenVINO 2026.1，新增 Llama.cpp 后端支持和硬件支持

视频生成推理加速实践：基于 torch.compile 的整图编译优化

明日开播！从前沿动态到实战经验，vLLM 推理优化实战 Meetup 定档 10 月 25 日

可验证过程奖励在提升大模型推理效率中的探索与实践

wavlm-large模型onnx和mnn版本的导出与使用

PaddleMIX推出扩散模型推理加速Fast-Diffusers：自研蒸馏加速方法FLUX-Lightning实现4步图像生成

Mamba核心作者新作:取代DeepSeek在用的注意力机制，专为推理打造

传统预训练正走向终结，推理优化与后训练提升有限，大模型今后如何突破发展瓶颈？

三思而后行，让大模型推理更强的秘密是「THINK TWICE」？

Optimizing Multi-DNN Inference on Mobile Devices through Heterogeneous Processor Co-Execution

Meta-Reasoner: Dynamic Guidance for Optimizing Inference Time in Large Language Models

成为大型语言模型（LLM）工程师的终极学习路线图

Language Models as Implicit Reasoners: Unlocking Potential Reasoning Abilities through Self-Reinforcement

CE-CoLLM：通过云-边缘协作实现高效和自适应的大型语言模型

Locret：通过训练保留头增强长上下文LLM推断中的驱逐

Kraken：高效多设备推理的内在并行转换器

MiniCache：大型语言模型的键值缓存深度维度压缩

使用 PAI-Blade 优化 Stable Diffusion 推理流程