小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

vLLM 是一款专为大语言模型推理加速设计的框架,解决了内存管理瓶颈,实现了 KV 缓存内存的零浪费。使用时需关闭多处理以确保结果可复现,并设置种子。该框架在相同硬件和版本下提供可重复性。

【vLLM 学习】Reproduciblity

HyperAI超神经
HyperAI超神经 · 2025-12-30T08:28:57Z

小米新开源模型MiMo-V2-Flash参数为309B,展现出高效能,推理加速达2.6倍,具备出色的代码能力和良好的情感理解,成功进入开源第一梯队,助力小米转型为“大模型公司”。

小米大模型“杀”进第一梯队:代码能力开源第一,智商情商全在线

量子位
量子位 · 2025-12-18T00:57:11Z
镜像推测解码:打破大型语言模型推理中的串行障碍

本文介绍了镜像推测解码(Mirror-SD)算法,该算法通过并行处理和多令牌推测流来加速大型语言模型(LLM)的推理,打破了延迟与接受率之间的权衡。Mirror-SD在多种任务中实现了2.8到5.8倍的速度提升,并在性能上超越了现有基线EAGLE3,满足了快速高效推理的需求。

镜像推测解码:打破大型语言模型推理中的串行障碍

Apple Machine Learning Research
Apple Machine Learning Research · 2025-12-11T00:00:00Z

Intel的AutoRound算法已集成至LLM Compressor,支持低位宽量化,提升模型准确性并简化工作流程。该算法优化了多种数据类型的量化,旨在加速推理,未来将扩展支持更多格式和模型,以促进实际部署。

推动LLM的低位宽量化:AutoRound与LLM Compressor的结合

vLLM Blog
vLLM Blog · 2025-12-09T00:00:00Z

高通推出AI200和AI250两款新AI芯片,进军数据中心市场,股价上涨20%。这两款芯片专注于推理加速,具备高能效和低总拥有成本,预计2026年和2027年商用。高通希望通过技术积累和市场需求,挑战英伟达的市场份额。

高通新款云端芯片公开!借推理抢英伟达蛋糕,市值一夜暴涨197.4亿美元

量子位
量子位 · 2025-10-29T04:01:21Z

vLLM 是一款专为大语言模型推理加速设计的框架,解决了内存管理瓶颈问题,支持几乎零浪费的 KV 缓存内存和多种提示方式,适用于编码器/解码器模型,如 BART,提升推理效率。

【vLLM 学习】Encoder Decoder

HyperAI超神经
HyperAI超神经 · 2025-07-23T02:20:02Z

飞桨PaddlePaddle推出扩散模型推理加速插件,利用模型蒸馏和推理缓存等技术,将推理速度提升超过2倍,同时保持生成质量。主要方法包括SortBlock、TeaBlockCache和FirstBlock-Taylor,开发者可灵活应用这些插件以优化实时应用。

PaddleMIX推出扩散模型推理加速工具箱Fast-Diffusers:自研缓存加速方案实现2倍+提速

百度大脑
百度大脑 · 2025-07-16T10:56:49Z

vLLM 是一款专为大语言模型推理加速设计的框架,解决了内存管理瓶颈,实现了几乎零浪费的 KV 缓存内存,支持多种参数设置,能够高效生成文本,适用于 AI 应用。

【vLLM 学习】Eagle

HyperAI超神经
HyperAI超神经 · 2025-07-09T03:59:29Z
Gemma 3n引入新技术以增强移动AI推理

Gemma 3n正式发布,专注于移动设备的AI应用。采用Per-Layer Embeddings技术减少RAM需求,同时保持参数数量。MatFormer技术支持模型嵌套,允许选择完整模型或子模型。此外,Gemma 3n引入KV缓存共享,加速推理时间,并具备音频和视频编码能力,支持自动语音识别和翻译。

Gemma 3n引入新技术以增强移动AI推理

InfoQ
InfoQ · 2025-07-04T18:00:00Z

vLLM 是一款专为大语言模型推理加速设计的框架,解决了内存管理瓶颈,实现了 KV 缓存内存几乎零浪费。它支持离线演示和 API 调用,用户可以通过简单的代码实现天气查询等功能。

【vLLM 学习】Chat With Tools

HyperAI超神经
HyperAI超神经 · 2025-05-28T02:46:21Z

vLLM是一个专为大语言模型推理加速设计的框架,解决了内存管理瓶颈,实现了KV缓存内存几乎零浪费。它支持音频语言模型的离线推理,并提供多种模型的使用示例,适用于不同的音频输入。

【vLLM 学习】Audio Language

HyperAI超神经
HyperAI超神经 · 2025-05-09T09:42:06Z

vLLM是一个专为大语言模型推理加速设计的框架,解决了内存管理瓶颈,实现了KV缓存内存几乎零浪费。提供了Python客户端示例,适合演示和性能基准测试,但不适合生产环境。建议在生产中使用`vllm serve`和OpenAI客户端API。

【vLLM 学习】API 客户端

HyperAI超神经
HyperAI超神经 · 2025-04-11T10:41:26Z

本研究提出了RASD方法,结合检索技术与推测解码,解决了异域场景中解码效果差和验证时间成本高的问题。实验结果表明,RASD在多个任务上实现了推理加速,并具备良好的可扩展性。

Retrieval-based Speculative Decoding (RASD)

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-05T00:00:00Z
TPAMI-2024 | Uni-AdaFocus视频理解框架,让AI学会「划重点」,计算效率提升4-23倍!

Uni-AdaFocus是一个高效的视频理解框架,通过动态计算减少时间、空间和样本冗余。该模型在多个数据集上表现优异,能够加速推理并提高准确性,适用于视频监控和教育等领域。

TPAMI-2024 | Uni-AdaFocus视频理解框架,让AI学会「划重点」,计算效率提升4-23倍!

机器之心
机器之心 · 2025-01-17T05:13:45Z

vLLM 是一款专为大型语言模型推理加速设计的框架,具备高效的内存管理和几乎零浪费的 KV 缓存。其核心特性包括高吞吐量、CUDA 优化、模型量化支持,以及与 HuggingFace 模型的无缝集成,适用于多种硬件平台。

【vLLM 学习】欢迎来到 vLLM!

HyperAI超神经
HyperAI超神经 · 2025-01-03T10:29:15Z

LLMA是一种加速大型语言模型推理的技术,通过选择参考文本和复制标记实现计算并行性,速度提升超过2倍。研究还提出了混合方法和LLM-Streamline,通过剪枝和轻量化训练提高效率,减少性能损失。此外,LLM2Vec方法将解码器模型转化为强大文本编码器,展示了在多项任务中的优越性能。文章综述了大规模语言模型的优化方法,并探讨了未来研究方向。

基于幂律解码器表示的大型语言模型(PLDR-LLM)

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-22T00:00:00Z

本文介绍了多种加速大型语言模型推理的方法,包括SPEED、FastCoT、Tandem transformers和SPACE等。这些方法在保持生成质量的同时显著提高了推理速度,减少了延迟。通过自适应N-gram并行解码和词汇单元解码等创新技术,模型的推理效率得到了有效提升,验证了其在实际应用中的潜力。

Cerberus:适应性并行解码与序列知识增强的高效推理

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-17T00:00:00Z

本文提出了多种加速大型语言模型推理的方法,包括DistillSpec、Speculative Streaming和SmartSpec。这些方法通过知识蒸馏和推测解码显著提高了解码速度和效率,减少了推理延迟。实验结果表明,这些方法在多项任务中表现优异,提升了模型性能并降低了资源消耗。

QSpec:使用补充量化方案的投机解码

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-15T00:00:00Z
华为云+腾讯音乐天琴实验室达成深度合作,基于昇腾AI

在第九届华为全联接大会上,腾讯音乐娱乐集团天琴实验室的吴斌博士介绍了与华为云合作的AI大模型推理加速方案MUSELight。该方案结合昇腾AI云服务,提高推理速度和性价比,降低部署门槛。MUSELight将在歌单封面生成业务中试点,通过AI快速生成与音乐风格匹配的封面。天琴实验室计划在第四季度推出更多加速方案。

华为云+腾讯音乐天琴实验室达成深度合作,基于昇腾AI

机器之心
机器之心 · 2024-09-23T09:37:00Z

本文介绍了多种加速大型语言模型(LLM)推理的方法,如LLMA、Vistaar和METHODNS,显著提升了多语言和低资源语音识别的性能。研究还提出了分阶段投机性解码和混合方法,以优化解码效率、降低延迟并保持输出质量。此外,通过助理模型的训练,进一步减少了推理时间,增强了多语言环境中的应用效果。

SALSA:快速的ASR-LLM同步聚合

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-29T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码