小红花·文摘

vLLM 是一款专为大语言模型推理加速设计的框架，解决了内存管理瓶颈，实现了 KV 缓存内存的零浪费。使用时需关闭多处理以确保结果可复现，并设置种子。该框架在相同硬件和版本下提供可重复性。

【vLLM 学习】Reproduciblity

HyperAI超神经 ·

小米新开源模型MiMo-V2-Flash参数为309B，展现出高效能，推理加速达2.6倍，具备出色的代码能力和良好的情感理解，成功进入开源第一梯队，助力小米转型为“大模型公司”。

小米大模型“杀”进第一梯队：代码能力开源第一，智商情商全在线

量子位 ·

镜像推测解码：打破大型语言模型推理中的串行障碍

Apple Machine Learning Research ·

Intel的AutoRound算法已集成至LLM Compressor，支持低位宽量化，提升模型准确性并简化工作流程。该算法优化了多种数据类型的量化，旨在加速推理，未来将扩展支持更多格式和模型，以促进实际部署。

推动LLM的低位宽量化：AutoRound与LLM Compressor的结合

vLLM Blog ·

高通推出AI200和AI250两款新AI芯片，进军数据中心市场，股价上涨20%。这两款芯片专注于推理加速，具备高能效和低总拥有成本，预计2026年和2027年商用。高通希望通过技术积累和市场需求，挑战英伟达的市场份额。

高通新款云端芯片公开！借推理抢英伟达蛋糕，市值一夜暴涨197.4亿美元

量子位 ·

vLLM 是一款专为大语言模型推理加速设计的框架，解决了内存管理瓶颈问题，支持几乎零浪费的 KV 缓存内存和多种提示方式，适用于编码器/解码器模型，如 BART，提升推理效率。

【vLLM 学习】Encoder Decoder

HyperAI超神经 ·

飞桨PaddlePaddle推出扩散模型推理加速插件，利用模型蒸馏和推理缓存等技术，将推理速度提升超过2倍，同时保持生成质量。主要方法包括SortBlock、TeaBlockCache和FirstBlock-Taylor，开发者可灵活应用这些插件以优化实时应用。

PaddleMIX推出扩散模型推理加速工具箱Fast-Diffusers：自研缓存加速方案实现2倍+提速

百度大脑 ·

vLLM 是一款专为大语言模型推理加速设计的框架，解决了内存管理瓶颈，实现了几乎零浪费的 KV 缓存内存，支持多种参数设置，能够高效生成文本，适用于 AI 应用。

【vLLM 学习】Eagle

HyperAI超神经 ·

Gemma 3n引入新技术以增强移动AI推理

InfoQ ·

vLLM 是一款专为大语言模型推理加速设计的框架，解决了内存管理瓶颈，实现了 KV 缓存内存几乎零浪费。它支持离线演示和 API 调用，用户可以通过简单的代码实现天气查询等功能。

【vLLM 学习】Chat With Tools

HyperAI超神经 ·

vLLM是一个专为大语言模型推理加速设计的框架，解决了内存管理瓶颈，实现了KV缓存内存几乎零浪费。它支持音频语言模型的离线推理，并提供多种模型的使用示例，适用于不同的音频输入。

【vLLM 学习】Audio Language

HyperAI超神经 ·

vLLM是一个专为大语言模型推理加速设计的框架，解决了内存管理瓶颈，实现了KV缓存内存几乎零浪费。提供了Python客户端示例，适合演示和性能基准测试，但不适合生产环境。建议在生产中使用`vllm serve`和OpenAI客户端API。

【vLLM 学习】API 客户端

HyperAI超神经 ·

本研究提出了RASD方法，结合检索技术与推测解码，解决了异域场景中解码效果差和验证时间成本高的问题。实验结果表明，RASD在多个任务上实现了推理加速，并具备良好的可扩展性。

Retrieval-based Speculative Decoding (RASD)

BriefGPT - AI 论文速递 ·

TPAMI-2024 | Uni-AdaFocus视频理解框架，让AI学会「划重点」，计算效率提升4-23倍！

机器之心 ·

vLLM 是一款专为大型语言模型推理加速设计的框架，具备高效的内存管理和几乎零浪费的 KV 缓存。其核心特性包括高吞吐量、CUDA 优化、模型量化支持，以及与 HuggingFace 模型的无缝集成，适用于多种硬件平台。

【vLLM 学习】欢迎来到 vLLM!

HyperAI超神经 ·

华为云+腾讯音乐天琴实验室达成深度合作，基于昇腾AI

机器之心 ·

硅基流动开发的OneDiff图片/视频推理加速引擎发布了v1.0.0版本，解决了问题并增加了新特性和改进。OneDiff保持2-3倍的推理加速，帮助节省成本。已在多家企业应用。

OneDiff 1.0发布！生产环境稳定加速SD/SVD模型

OneFlow深度学习框架 ·

模型压缩和推理加速

范叶亮的博客 ·

本研究介绍了Sequoia算法，用于加速大型语言模型的推理。通过动态规划算法找到最佳树结构，采样和验证方法实现鲁棒的推测性能，通过自动选择硬件平台的标记树大小和深度来优化硬件感知的树优化器。在A100上，解码速度提高了4.04倍、3.84倍和2.37倍，并在L40上将卸载速度提高了10.33倍。

Sequoia：可伸缩、稳健且硬件感知的推测解码

BriefGPT - AI 论文速递 ·

本文介绍了一种利用神经常微分方程构建的技术，提高了参数共享的预训练语言模型的推理效率，并实现了更大的推理加速。实验结果证明了该方法在自回归和自编码 PLMs 上的有效性，并为在资源受限环境中更高效地利用参数共享模型提供了新的见解。

提升推理效率：释放参数共享的预训练语言模型的力量

BriefGPT - AI 论文速递 ·