小红花·文摘

推测解码是一种加速大模型推理的方法，解决了显存带宽限制问题。通过一次性处理多个token，提升生成效率。经典算法如Medusa和EAGLE通过多头预测和特征自回归优化性能，而Lookahead解码则利用当前模型进行并行预测，无需额外模型。整体上，推测解码显著提高了解码速度和准确性，适用于多种场景。

土法炼钢兴趣小组的博客 ·

美团龙猫LongCat推出新稀疏注意力机制LoZA，解码速度提升10倍，支持处理1M长文本。通过优化模型结构，降低计算复杂度，提高效率，同时保持稳定性能。该技术在长文本任务中优于同类模型，未来将支持动态稀疏比例，以适应不同场景需求。

量子位 ·

全球TMT-美通国际 ·

本研究提出了一种新方法——每层每头视觉标记修剪（PLPHP），旨在提高大型视觉语言模型的推理效率。该方法通过动态调整视觉标记保留率，显著提升解码速度18%，减少缓存大小，同时保持较小的性能损失。

BriefGPT - AI 论文速递 ·

本研究利用Intel CPU的高级矩阵扩展（AMX）和非结构稀疏性，解决了大语言模型在推理阶段的内存限制和解码速度慢的问题，实现了1.42倍的延迟减少，并提供了开源稀疏内核方案，提升了大语言模型在常规计算平台上的可访问性。

BriefGPT - AI 论文速递 ·

实时互动网 ·

本研究提出了一种新系统PASTA，旨在解决自回归大型语言模型的顺序解码局限。该系统通过学习语义独立性，优化并行解码，显著提升了解码速度和响应质量。

BriefGPT - AI 论文速递 ·

本研究提出了一种二维高斯喷溅（2DGS）方案，解决了隐式神经表示在图像表示中的高内存消耗和慢解码速度问题，成功利用高斯点表示大型图像。

BriefGPT - AI 论文速递 ·

本文提出了一种“延迟融合”方法，旨在解决端到端自动语音识别中大型语言模型的计算成本和词汇不匹配问题，从而提高解码速度和准确性，为ASR任务提供新的思路。

BriefGPT - AI 论文速递 ·

实时互动网 ·

Apple Machine Learning Research ·

本研究提出MagicPIG系统，利用局部敏感哈希（LSH）解决大语言模型KV缓存的瓶颈问题。MagicPIG在多种任务中显著减少注意力计算量，同时保持高准确率，解码速度提升1.9到3.9倍。

BriefGPT - AI 论文速递 ·

本研究提出通过替换分词器提高大语言模型效率，实验显示在不影响性能的情况下显著加快长文本解码速度，对模型应用有重要影响。

BriefGPT - AI 论文速递 ·

通过预训练、知识蒸馏和非自回归训练技术，基于CTC的非自回归模型在直接语音到语音翻译中实现了与自回归模型相当的翻译质量，并提升了26.81倍的解码速度。

BriefGPT - AI 论文速递 ·

本论文研究了层次化变分自编码器中速率/失真权衡的问题，并提出了一个通用类别的推理模型，可以独立调节解码速度的各层贡献。通过实验证实了理论发现，为从事者在给定应用程序中的目标速率空间提供了指导。

BriefGPT - AI 论文速递 ·

本文介绍了一种基于线性注意力模型的文档级机器翻译方法，通过句子门促进最近归纳偏置，提高了解码速度和翻译质量。在IWSLT 2015和OpenSubtitles 2018上测试，结果表明该模型翻译得分相似或更高，并展示了句子门进一步提高了翻译质量。

BriefGPT - AI 论文速递 ·