本研究提出了InfiniteHiP框架,旨在解决大语言模型在处理长上下文时的推理速度慢和内存成本高的问题。该框架通过动态修剪无关上下文,实现对300万标记的处理,并在注意力解码上加速18.95倍,显著提升了实用性和效率。
完成下面两步后,将自动完成登录并继续当前操作。