小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了一种新系统PASTA，旨在解决自回归大型语言模型的顺序解码局限。该系统通过学习语义独立性，优化并行解码，显著提升了解码速度和响应质量。

Learning to Keep a Promise: Scaling Language Model Decoding Parallelism through Learned Asynchronous Decoding

BriefGPT - AI 论文速递 ·

本研究提出Jakiro方法，通过专家组合生成多样化预测，解决模型容量有限导致的准确性不足问题。引入混合推理策略，结合自回归与并行解码，提高了预测的准确性和速度，推动了推测解码研究的进展。

Jakiro: Enhancing Inference Decoding through Expert Ensemble

BriefGPT - AI 论文速递 ·

本研究提出了ZipAR框架，旨在提高自回归图像生成的效率。通过利用图像的局部结构，ZipAR能够在一次前向传播中并行解码多个相邻区域，实验表明可减少91%的前向传播次数。

ZipAR: Accelerating Autoregressive Image Generation through Spatial Locality

BriefGPT - AI 论文速递 ·

本文探讨了基于Transformer架构的生成式大型语言模型（SPEED）在机器翻译中的应用，提出了并行解码方法以提高推理效率，速度提升可达38%。同时，介绍了自我推测解码方案，确保输出质量并加速推理。此外，研究提出了分块并行解码和轻量级草稿模型，显著提高了解码效率，保持高性能。

通过隐藏传输进行并行解码以实现无损大型语言模型加速

BriefGPT - AI 论文速递 ·