小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

vLLM 是一款专为大语言模型推理加速设计的框架,解决了内存管理瓶颈,实现了 KV 缓存内存的零浪费。使用时需关闭多处理以确保结果可复现,并设置种子。该框架在相同硬件和版本下提供可重复性。

【vLLM 学习】Reproduciblity

HyperAI超神经
HyperAI超神经 · 2025-12-30T08:28:57Z

小米新开源模型MiMo-V2-Flash参数为309B,展现出高效能,推理加速达2.6倍,具备出色的代码能力和良好的情感理解,成功进入开源第一梯队,助力小米转型为“大模型公司”。

小米大模型“杀”进第一梯队:代码能力开源第一,智商情商全在线

量子位
量子位 · 2025-12-18T00:57:11Z
镜像推测解码:打破大型语言模型推理中的串行障碍

本文介绍了镜像推测解码(Mirror-SD)算法,该算法通过并行处理和多令牌推测流来加速大型语言模型(LLM)的推理,打破了延迟与接受率之间的权衡。Mirror-SD在多种任务中实现了2.8到5.8倍的速度提升,并在性能上超越了现有基线EAGLE3,满足了快速高效推理的需求。

镜像推测解码:打破大型语言模型推理中的串行障碍

Apple Machine Learning Research
Apple Machine Learning Research · 2025-12-11T00:00:00Z

Intel的AutoRound算法已集成至LLM Compressor,支持低位宽量化,提升模型准确性并简化工作流程。该算法优化了多种数据类型的量化,旨在加速推理,未来将扩展支持更多格式和模型,以促进实际部署。

推动LLM的低位宽量化:AutoRound与LLM Compressor的结合

vLLM Blog
vLLM Blog · 2025-12-09T00:00:00Z

高通推出AI200和AI250两款新AI芯片,进军数据中心市场,股价上涨20%。这两款芯片专注于推理加速,具备高能效和低总拥有成本,预计2026年和2027年商用。高通希望通过技术积累和市场需求,挑战英伟达的市场份额。

高通新款云端芯片公开!借推理抢英伟达蛋糕,市值一夜暴涨197.4亿美元

量子位
量子位 · 2025-10-29T04:01:21Z

vLLM 是一款专为大语言模型推理加速设计的框架,解决了内存管理瓶颈问题,支持几乎零浪费的 KV 缓存内存和多种提示方式,适用于编码器/解码器模型,如 BART,提升推理效率。

【vLLM 学习】Encoder Decoder

HyperAI超神经
HyperAI超神经 · 2025-07-23T02:20:02Z

飞桨PaddlePaddle推出扩散模型推理加速插件,利用模型蒸馏和推理缓存等技术,将推理速度提升超过2倍,同时保持生成质量。主要方法包括SortBlock、TeaBlockCache和FirstBlock-Taylor,开发者可灵活应用这些插件以优化实时应用。

PaddleMIX推出扩散模型推理加速工具箱Fast-Diffusers:自研缓存加速方案实现2倍+提速

百度大脑
百度大脑 · 2025-07-16T10:56:49Z

vLLM 是一款专为大语言模型推理加速设计的框架,解决了内存管理瓶颈,实现了几乎零浪费的 KV 缓存内存,支持多种参数设置,能够高效生成文本,适用于 AI 应用。

【vLLM 学习】Eagle

HyperAI超神经
HyperAI超神经 · 2025-07-09T03:59:29Z
Gemma 3n引入新技术以增强移动AI推理

Gemma 3n正式发布,专注于移动设备的AI应用。采用Per-Layer Embeddings技术减少RAM需求,同时保持参数数量。MatFormer技术支持模型嵌套,允许选择完整模型或子模型。此外,Gemma 3n引入KV缓存共享,加速推理时间,并具备音频和视频编码能力,支持自动语音识别和翻译。

Gemma 3n引入新技术以增强移动AI推理

InfoQ
InfoQ · 2025-07-04T18:00:00Z

vLLM 是一款专为大语言模型推理加速设计的框架,解决了内存管理瓶颈,实现了 KV 缓存内存几乎零浪费。它支持离线演示和 API 调用,用户可以通过简单的代码实现天气查询等功能。

【vLLM 学习】Chat With Tools

HyperAI超神经
HyperAI超神经 · 2025-05-28T02:46:21Z

vLLM是一个专为大语言模型推理加速设计的框架,解决了内存管理瓶颈,实现了KV缓存内存几乎零浪费。它支持音频语言模型的离线推理,并提供多种模型的使用示例,适用于不同的音频输入。

【vLLM 学习】Audio Language

HyperAI超神经
HyperAI超神经 · 2025-05-09T09:42:06Z

vLLM是一个专为大语言模型推理加速设计的框架,解决了内存管理瓶颈,实现了KV缓存内存几乎零浪费。提供了Python客户端示例,适合演示和性能基准测试,但不适合生产环境。建议在生产中使用`vllm serve`和OpenAI客户端API。

【vLLM 学习】API 客户端

HyperAI超神经
HyperAI超神经 · 2025-04-11T10:41:26Z

本研究提出了RASD方法,结合检索技术与推测解码,解决了异域场景中解码效果差和验证时间成本高的问题。实验结果表明,RASD在多个任务上实现了推理加速,并具备良好的可扩展性。

Retrieval-based Speculative Decoding (RASD)

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-05T00:00:00Z
TPAMI-2024 | Uni-AdaFocus视频理解框架,让AI学会「划重点」,计算效率提升4-23倍!

Uni-AdaFocus是一个高效的视频理解框架,通过动态计算减少时间、空间和样本冗余。该模型在多个数据集上表现优异,能够加速推理并提高准确性,适用于视频监控和教育等领域。

TPAMI-2024 | Uni-AdaFocus视频理解框架,让AI学会「划重点」,计算效率提升4-23倍!

机器之心
机器之心 · 2025-01-17T05:13:45Z

vLLM 是一款专为大型语言模型推理加速设计的框架,具备高效的内存管理和几乎零浪费的 KV 缓存。其核心特性包括高吞吐量、CUDA 优化、模型量化支持,以及与 HuggingFace 模型的无缝集成,适用于多种硬件平台。

【vLLM 学习】欢迎来到 vLLM!

HyperAI超神经
HyperAI超神经 · 2025-01-03T10:29:15Z
华为云+腾讯音乐天琴实验室达成深度合作,基于昇腾AI

在第九届华为全联接大会上,腾讯音乐娱乐集团天琴实验室的吴斌博士介绍了与华为云合作的AI大模型推理加速方案MUSELight。该方案结合昇腾AI云服务,提高推理速度和性价比,降低部署门槛。MUSELight将在歌单封面生成业务中试点,通过AI快速生成与音乐风格匹配的封面。天琴实验室计划在第四季度推出更多加速方案。

华为云+腾讯音乐天琴实验室达成深度合作,基于昇腾AI

机器之心
机器之心 · 2024-09-23T09:37:00Z

硅基流动开发的OneDiff图片/视频推理加速引擎发布了v1.0.0版本,解决了问题并增加了新特性和改进。OneDiff保持2-3倍的推理加速,帮助节省成本。已在多家企业应用。

OneDiff 1.0发布!生产环境稳定加速SD/SVD模型

OneFlow深度学习框架
OneFlow深度学习框架 · 2024-04-18T03:20:10Z
模型压缩和推理加速

随着深度神经网络模型复杂度的增加,模型压缩和推理加速变得越来越重要。剪裁和量化是常用的模型压缩方法,神经结构搜索可以自动化解决网络设计问题。知识蒸馏可以迁移复杂教师模型的知识到简单学生模型中。推理加速方法包括硬件加速和并行计算。可供使用的库有TensorRT、Triton、OpenVINO、Paddle Inference等。

模型压缩和推理加速

范叶亮的博客
范叶亮的博客 · 2024-04-14T00:00:00Z

本研究介绍了Sequoia算法,用于加速大型语言模型的推理。通过动态规划算法找到最佳树结构,采样和验证方法实现鲁棒的推测性能,通过自动选择硬件平台的标记树大小和深度来优化硬件感知的树优化器。在A100上,解码速度提高了4.04倍、3.84倍和2.37倍,并在L40上将卸载速度提高了10.33倍。

Sequoia:可伸缩、稳健且硬件感知的推测解码

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-19T00:00:00Z

本文介绍了一种利用神经常微分方程构建的技术,提高了参数共享的预训练语言模型的推理效率,并实现了更大的推理加速。实验结果证明了该方法在自回归和自编码 PLMs 上的有效性,并为在资源受限环境中更高效地利用参数共享模型提供了新的见解。

提升推理效率:释放参数共享的预训练语言模型的力量

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-19T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码