TokenButler: Predicting Token Importance
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了TokenButler,一个高效的预测器,旨在解决大语言模型中键值缓存的效率瓶颈。该方法能够动态识别重要令牌,提升超过8%的困惑度和下游准确性,具有显著的潜在影响。
🎯
关键要点
-
TokenButler是一个高效的预测器,旨在解决大语言模型中键值缓存的效率瓶颈。
-
该方法能够动态识别重要令牌,提升超过8%的困惑度和下游准确性。
-
随着键值缓存的增长,它成为主要的内存和计算瓶颈,TokenButler提供了解决方案。
🏷️
标签
➡️