无训练的投机雅可比解码加速自回归文本到图像生成

💡 原文中文,约1300字,阅读约需3分钟。
📝

内容提要

该论文提出了多种新颖的文本到图像生成方法,如分块并行解码、离散扩散模型和文本条件采样,显著提升了生成速度和图像质量,并验证了其在机器翻译和图像超分辨率任务中的有效性。

🎯

关键要点

  • 该论文提出了一种新颖的分块并行解码方案,以提高序列生成速度,并在机器翻译和图像超分辨率任务上验证了其有效性。
  • 提出了一种新的离散扩散概率模型,通过无约束的Transformer架构实现向量量化标记的并行预测,促进图像生成的全局一致性和多样性。
  • Pathways Autoregressive Text-to-Image(Parti)模型能够将文本转换为高保真度的图像,支持复杂组合和丰富内容的合成。
  • 提出了Text-Conditioned Token Selection(TCTS)方案,通过文本信息的本地化监督选择最优选项,提高生成图像的质量和语义对齐度。
  • 引入Frequency Adaptive Sampling(FAS)策略,进一步提高图像质量和文本对齐度,文本条件采样框架可将推理时间缩短50%以上。
  • 基于进化策略的梯度自由框架优化文本反演过程,解决个性化文本生成中的内存消耗和部署复杂问题,性能几乎没有损失。
  • 非自回归模型在生成图像时具有高效生成和低推理延迟的特点,参数规模为346M,能在1秒内生成高质量图像。
  • 提出并行提示解码方法,仅需$0.0002$%的可训练参数,在16小时内可高效训练,显著提高多令牌生成的接受率和输出速度。
  • 在大型语言模型中引入早期退出推理(EESD)方法,通过自蒸馏提高初步令牌质量,并利用汤普森采样调节生成过程。
  • 改进基于变压器的大语言模型的推理速度和效率,通过标记关联和验证步骤实现更好的输出困惑度和效率。

延伸问答

分块并行解码方案的主要优势是什么?

分块并行解码方案提高了序列生成的速度,并在机器翻译和图像超分辨率任务中验证了其有效性。

Pathways Autoregressive Text-to-Image模型的功能是什么?

该模型能够将文本转换为高保真度的图像,支持复杂组合和丰富内容的合成。

什么是Text-Conditioned Token Selection方案?

TCTS方案通过文本信息的本地化监督选择最优选项,提高生成图像的质量和语义对齐度。

Frequency Adaptive Sampling策略的作用是什么?

FAS策略提高了图像质量和文本对齐度,并能将推理时间缩短50%以上。

非自回归模型与自回归模型相比有什么优势?

非自回归模型具有高效生成和低推理延迟的特点,参数规模较小,能在1秒内生成高质量图像。

早期退出推理(EESD)方法的创新点是什么?

EESD方法通过引入早期退出结构和自蒸馏提高初步令牌质量,实现了解码的加速效果。

➡️

继续阅读