量子位 ·

DeepSeek推理最高提速6倍！开源研究：加装「思维进度条」，计算量减少30%

💡 原文中文，约3100字，阅读约需8分钟。

📝

内容提要

特拉维夫大学研究团队开发了一种新方法，通过“思维进度条”监控和控制LLM推理路径，使推理速度提高6倍，计算量减少30%。该方法动态编码思考进度，优化推理过程，提升准确性，并已在GitHub上开源。

🎯

🔎

思维进度条（TPV）不仅提升了推理速度，还能在实际应用中帮助用户更好地理解模型的思考过程。通过可视化推理进度，用户可以实时掌握模型的决策动态，从而在需要时进行干预或调整。这种透明度在复杂任务中尤为重要，能够提高用户对模型输出的信任度。

尽管TPV方法在推理速度和准确性上表现出色，但在某些情况下仍然落后于基于指令的提示技术。这表明TPV并非在所有场景下都能优于其他方法，尤其是在处理复杂问题时。因此，结合不同的加速技术可能是实现最佳性能的关键。

TPV方法在计算预算较低的情况下显著提高了正确答案的数量，同时保持错误率不变。这一发现对资源有限的应用场景尤为重要，表明在优化推理效率的同时，TPV能够有效利用现有计算资源，降低成本。

❓

思维进度条（TPV）是一种用于实时预测模型在推理阶段相对位置的向量，能够监控和控制LLM的推理路径。

TPV方法通过干预思维进度向量，能够加速或减速模型的推理过程，实现超频，减少不必要的推理步骤，从而提高推理速度。

实验结果显示，TPV方法在DeepSeek-R1-Qwen-32B和DeepSeek-R1-LLaMA-8B上实现了推理速度提高6倍，计算量减少30%，且在低计算预算下正确答案增加80%。

TPV方法与基于指令的提示技术相辅相成，结合使用时表现最佳，能够显著提高模型的性能。

TPV方法在不同提示策略和推理序列长度下均表现出鲁棒性，能够有效估计模型在推理过程中的位置。

TPV方法已在GitHub上开源，用户可以访问相关代码和论文进行进一步研究。

🏷️