SelfBudgeter:一种用于高效LLM推理的自适应令牌分配
📝
内容提要
本文解决了大规模推理模型在处理不同复杂度查询时资源浪费和用户延迟的问题。提出的SelfBudgeter通过双阶段训练策略,首先预估推理成本,然后采用预算指导的强化学习,在减少输出长度的同时保持准确性。实验结果显示,该方法在MATH基准上实现了高达74.47%的响应长度压缩,具有显著的优化效果。
➡️
本文解决了大规模推理模型在处理不同复杂度查询时资源浪费和用户延迟的问题。提出的SelfBudgeter通过双阶段训练策略,首先预估推理成本,然后采用预算指导的强化学习,在减少输出长度的同时保持准确性。实验结果显示,该方法在MATH基准上实现了高达74.47%的响应长度压缩,具有显著的优化效果。