小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

推测解码是一种加速大模型推理的方法,解决了显存带宽限制问题。通过一次性处理多个token,提升生成效率。经典算法如Medusa和EAGLE通过多头预测和特征自回归优化性能,而Lookahead解码则利用当前模型进行并行预测,无需额外模型。整体上,推测解码显著提高了解码速度和准确性,适用于多种场景。

【大模型基础设施工程】15:推测解码与 MTP

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z

美团龙猫LongCat推出新稀疏注意力机制LoZA,解码速度提升10倍,支持处理1M长文本。通过优化模型结构,降低计算复杂度,提高效率,同时保持稳定性能。该技术在长文本任务中优于同类模型,未来将支持动态稀疏比例,以适应不同场景需求。

美团龙猫LongCat技术升级!新注意力机制解码速度快10倍,还能处理1M超长文本

量子位
量子位 · 2026-01-13T04:30:50Z
浪潮信息元脑R1深度适配SGLang最新版本

浪潮信息的元脑R1推理服务器深度适配开源框架SGLang,支持超1000路用户并发访问DeepSeek R1 671B模型,解码速度达33 tokens/s,显存带宽为4.8TB/s。

浪潮信息元脑R1深度适配SGLang最新版本

全球TMT-美通国际
全球TMT-美通国际 · 2025-02-27T02:28:00Z

本研究提出了一种新方法——每层每头视觉标记修剪(PLPHP),旨在提高大型视觉语言模型的推理效率。该方法通过动态调整视觉标记保留率,显著提升解码速度18%,减少缓存大小,同时保持较小的性能损失。

PLPHP:用于高效大型视觉语言模型的每层每头视觉标记修剪

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-20T00:00:00Z

本研究利用Intel CPU的高级矩阵扩展(AMX)和非结构稀疏性,解决了大语言模型在推理阶段的内存限制和解码速度慢的问题,实现了1.42倍的延迟减少,并提供了开源稀疏内核方案,提升了大语言模型在常规计算平台上的可访问性。

SparAMX: Accelerating Token Generation of Compressed Large Language Models on AMX-Supported CPUs

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-18T00:00:00Z
隐式视频表示的快速编码和解码 | ECCV 2024

本文介绍了NeRV-Enc和NeRV-Dec两个组件,显著提升了视频隐式表示的编码和解码速度。NeRV-Enc通过超网络实现104倍加速,NeRV-Dec的解码速度比传统方法快11倍,从而提高了视频处理效率。

隐式视频表示的快速编码和解码 | ECCV 2024

实时互动网
实时互动网 · 2025-02-17T03:17:53Z

本研究提出了一种新系统PASTA,旨在解决自回归大型语言模型的顺序解码局限。该系统通过学习语义独立性,优化并行解码,显著提升了解码速度和响应质量。

Learning to Keep a Promise: Scaling Language Model Decoding Parallelism through Learned Asynchronous Decoding

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-17T00:00:00Z

本研究提出了一种二维高斯喷溅(2DGS)方案,解决了隐式神经表示在图像表示中的高内存消耗和慢解码速度问题,成功利用高斯点表示大型图像。

Large Images as Gaussian Distributions: High-Quality Representation of Large Images Based on 2D Gaussian Splash

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-13T00:00:00Z

本文提出了一种“延迟融合”方法,旨在解决端到端自动语音识别中大型语言模型的计算成本和词汇不匹配问题,从而提高解码速度和准确性,为ASR任务提供新的思路。

延迟融合:将大型语言模型集成到端到端语音识别中的首次解码

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-16T00:00:00Z
WebAssembly FFmpeg H.265解码的SIMD加速

WebAssembly是一种字节码格式,支持在浏览器中运行C、C++和Rust程序,具备性能和代码复用优势。WebAssembly SIMD指令集可提升计算性能,FFmpeg在Web端音视频处理中的应用广泛,但其视频编解码性能不足。通过重写汇编加速,WebAssembly SIMD能显著提升FFmpeg的解码速度,预计1080P解码可达140 FPS。

WebAssembly FFmpeg H.265解码的SIMD加速

实时互动网
实时互动网 · 2024-11-17T01:39:20Z
基于Core ML的本地Llama 3.1

许多应用开发者希望在Apple硅上本地运行大型语言模型(LLMs),以提高推理效率和保护用户隐私。本文介绍了如何优化和部署Llama-3.1-8B-Instruct模型,利用Apple的Core ML框架实现约33个tokens/s的解码速度。通过引入状态化的键值缓存和4位量化,显著提升了模型性能,适用于其他基于变换器的LLMs。

基于Core ML的本地Llama 3.1

Apple Machine Learning Research
Apple Machine Learning Research · 2024-11-01T00:00:00Z

本研究提出MagicPIG系统,利用局部敏感哈希(LSH)解决大语言模型KV缓存的瓶颈问题。MagicPIG在多种任务中显著减少注意力计算量,同时保持高准确率,解码速度提升1.9到3.9倍。

MagicPIG:高效大语言模型生成的LSH采样

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-21T00:00:00Z

本研究提出通过替换分词器提高大语言模型效率,实验显示在不影响性能的情况下显著加快长文本解码速度,对模型应用有重要影响。

ReTok:替换分词器以增强大语言模型的表示效率

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-06T00:00:00Z

通过预训练、知识蒸馏和非自回归训练技术,基于CTC的非自回归模型在直接语音到语音翻译中实现了与自回归模型相当的翻译质量,并提升了26.81倍的解码速度。

基于 CTC 的非自回归式无文字语音翻译

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-11T00:00:00Z

本论文研究了层次化变分自编码器中速率/失真权衡的问题,并提出了一个通用类别的推理模型,可以独立调节解码速度的各层贡献。通过实验证实了理论发现,为从事者在给定应用程序中的目标速率空间提供了指导。

基于理论边界导向的分层 VAE 神经图像编解码器

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-27T00:00:00Z

本文介绍了一种基于线性注意力模型的文档级机器翻译方法,通过句子门促进最近归纳偏置,提高了解码速度和翻译质量。在IWSLT 2015和OpenSubtitles 2018上测试,结果表明该模型翻译得分相似或更高,并展示了句子门进一步提高了翻译质量。

注意力汇聚的高效流式语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-29T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码