本文提出了多模式推测解码(MSD),旨在加速多模式大语言模型(MLLMs)的推理。研究表明,传统推测解码在MLLMs中的加速效果不如在大语言模型(LLMs)中,因此对推测解码进行了重新设计,显著提升了推理速度。
完成下面两步后,将自动完成登录并继续当前操作。