本研究提出了MagicPIG系统,利用局部敏感哈希(LSH)解决大语言模型中的KV缓存瓶颈问题。该系统在多项任务中显著降低了注意力计算工作量,解码吞吐量提高了1.9至3.9倍,同时保持高准确度。
完成下面两步后,将自动完成登录并继续当前操作。