判决解码:更快的推测采样需要超越模型对齐

📝

内容提要

本研究针对当前推测解码方法中由于模型对齐导致的高质量草稿令牌被拒的限制,提出了一种改进的验证方法。通过借鉴 LLM 作为判断者的框架,研究团队设计了一个能够识别正确但非对齐回答的模块,从而实现了 Llama-3.1 系列模型的推理速度提高,达到 Llama-405B 的 9 倍,同时保持了高质量的生成表现。该方法在不同的推理框架中仍能保持这些优势,展示了其显著的潜在影响。

➡️

继续阅读