InfiniteHiP:在单个GPU上扩展语言模型上下文至300万标记 本研究针对大语言模型在处理长上下文时的推理速度慢和内存成本高的问题,提出了一种新的推理框架InfiniteHiP。该框架通过模块化层次标记修剪算法动态消除无关上下文标记,实现了对300万标记的处理,并在注意力解码方面实现了18.95倍的加速,具有较高的实用性和效率。 本研究提出了InfiniteHiP框架,解决了大语言模型在长上下文推理中的速度和内存问题,通过动态消除无关标记,实现了对300万标记的处理和18.95倍的加速。 InfiniteHiP gpu 内存 大语言模型 语言模型 速度 长上下文