TETRIS:批量推测解码的最优草稿令牌选择

📝

内容提要

本研究提出了TETRIS方法,解决了现有批量推测解码在多请求环境下的效率问题。TETRIS通过主动选择每个请求中最有前景的草稿令牌,提高了接受率并减少了计算资源的浪费,显著提升了大语言模型的推理效率。理论和实证结果表明,TETRIS的表现优于基线方法和现有动态选择草稿令牌的方法。

➡️

继续阅读