Apple Machine Learning Research ·

用于大型语言模型快速推测解码的递归草拟器

💡 原文英文，约200词，阅读约需1分钟。

📝

内容提要

ReDrafter是一种先进的推测解码方法，通过递归神经网络、动态树注意力算法和知识蒸馏三大技术显著加速大型语言模型推理。在Nvidia H100 GPU上，Vicuna推理加速达3.5倍，TensorRT-LLM实现2.5倍加速，Apple Silicon设备应用也达2.3倍加速。

🎯

🔎

ReDrafter结合了递归神经网络、动态树注意力算法和知识蒸馏三种技术，形成了一种高效的推测解码方法。这种组合不仅提升了推理速度，还优化了模型在处理复杂任务时的表现，适合需要快速响应的应用场景。

在不同硬件平台上，ReDrafter展现出显著的性能提升。在Nvidia H100 GPU上，Vicuna推理加速达3.5倍，而在Apple Silicon设备上也能实现2.3倍的加速。这表明该技术具有良好的跨平台适应性，适合多种计算环境。

ReDrafter的加速能力使其在实时应用中具有广泛的潜力，如聊天机器人和在线翻译等。然而，依赖于特定硬件和算法的实现，可能导致在不同环境下性能不均衡，用户在部署时需谨慎评估其适用性。

❓

ReDrafter是一种先进的推测解码方法，用于加速大型语言模型的推理。

ReDrafter通过递归神经网络、动态树注意力算法和知识蒸馏三大技术实现推理加速。

在Nvidia H100 GPU上，ReDrafter使Vicuna推理加速达3.5倍。

在TensorRT-LLM中集成ReDrafter后，H100 GPU上实现了2.5倍的加速。

在Apple Silicon设备上，使用MLX实现的ReDrafter达到了2.3倍的加速。

ReDrafter的主要技术包括递归神经网络、动态树注意力算法和知识蒸馏。

🏷️