推测解码是一种加速大模型推理的方法,解决了显存带宽限制问题。通过一次性处理多个token,提升生成效率。经典算法如Medusa和EAGLE通过多头预测和特征自回归优化性能,而Lookahead解码则利用当前模型进行并行预测,无需额外模型。整体上,推测解码显著提高了解码速度和准确性,适用于多种场景。
美团龙猫LongCat推出新稀疏注意力机制LoZA,解码速度提升10倍,支持处理1M长文本。通过优化模型结构,降低计算复杂度,提高效率,同时保持稳定性能。该技术在长文本任务中优于同类模型,未来将支持动态稀疏比例,以适应不同场景需求。
浪潮信息的元脑R1推理服务器深度适配开源框架SGLang,支持超1000路用户并发访问DeepSeek R1 671B模型,解码速度达33 tokens/s,显存带宽为4.8TB/s。
本研究提出了一种新方法——每层每头视觉标记修剪(PLPHP),旨在提高大型视觉语言模型的推理效率。该方法通过动态调整视觉标记保留率,显著提升解码速度18%,减少缓存大小,同时保持较小的性能损失。
本研究利用Intel CPU的高级矩阵扩展(AMX)和非结构稀疏性,解决了大语言模型在推理阶段的内存限制和解码速度慢的问题,实现了1.42倍的延迟减少,并提供了开源稀疏内核方案,提升了大语言模型在常规计算平台上的可访问性。
本文介绍了NeRV-Enc和NeRV-Dec两个组件,显著提升了视频隐式表示的编码和解码速度。NeRV-Enc通过超网络实现104倍加速,NeRV-Dec的解码速度比传统方法快11倍,从而提高了视频处理效率。
本研究提出了一种新系统PASTA,旨在解决自回归大型语言模型的顺序解码局限。该系统通过学习语义独立性,优化并行解码,显著提升了解码速度和响应质量。
本研究提出了一种二维高斯喷溅(2DGS)方案,解决了隐式神经表示在图像表示中的高内存消耗和慢解码速度问题,成功利用高斯点表示大型图像。
本文提出了一种“延迟融合”方法,旨在解决端到端自动语音识别中大型语言模型的计算成本和词汇不匹配问题,从而提高解码速度和准确性,为ASR任务提供新的思路。
WebAssembly是一种字节码格式,支持在浏览器中运行C、C++和Rust程序,具备性能和代码复用优势。WebAssembly SIMD指令集可提升计算性能,FFmpeg在Web端音视频处理中的应用广泛,但其视频编解码性能不足。通过重写汇编加速,WebAssembly SIMD能显著提升FFmpeg的解码速度,预计1080P解码可达140 FPS。
许多应用开发者希望在Apple硅上本地运行大型语言模型(LLMs),以提高推理效率和保护用户隐私。本文介绍了如何优化和部署Llama-3.1-8B-Instruct模型,利用Apple的Core ML框架实现约33个tokens/s的解码速度。通过引入状态化的键值缓存和4位量化,显著提升了模型性能,适用于其他基于变换器的LLMs。
本研究提出MagicPIG系统,利用局部敏感哈希(LSH)解决大语言模型KV缓存的瓶颈问题。MagicPIG在多种任务中显著减少注意力计算量,同时保持高准确率,解码速度提升1.9到3.9倍。
本研究提出通过替换分词器提高大语言模型效率,实验显示在不影响性能的情况下显著加快长文本解码速度,对模型应用有重要影响。
通过预训练、知识蒸馏和非自回归训练技术,基于CTC的非自回归模型在直接语音到语音翻译中实现了与自回归模型相当的翻译质量,并提升了26.81倍的解码速度。
本论文研究了层次化变分自编码器中速率/失真权衡的问题,并提出了一个通用类别的推理模型,可以独立调节解码速度的各层贡献。通过实验证实了理论发现,为从事者在给定应用程序中的目标速率空间提供了指导。
本文介绍了一种基于线性注意力模型的文档级机器翻译方法,通过句子门促进最近归纳偏置,提高了解码速度和翻译质量。在IWSLT 2015和OpenSubtitles 2018上测试,结果表明该模型翻译得分相似或更高,并展示了句子门进一步提高了翻译质量。
完成下面两步后,将自动完成登录并继续当前操作。