本研究提出了TokenButler,一个高效的预测器,旨在解决大语言模型中键值缓存的效率瓶颈。该方法能够动态识别重要令牌,提升超过8%的困惑度和下游准确性,具有显著的潜在影响。
完成下面两步后,将自动完成登录并继续当前操作。