小红花·文摘

向佑是一个1024维的向量，出生于混沌的向量空间。通过随机划分空间，他被找到并使用局部敏感哈希（LSH）策略定位。

王福强 ·

研究人员提出了MagicPIG，通过在CPU上应用局部敏感哈希（LSH）技术，显著提升了大模型解码吞吐量1.76至4.99倍，减轻了GPU内存压力，并提高了推理质量和准确率。这项研究探索了异构计算的潜力，有望降低模型部署成本。

量子位 ·

DEV Community ·

本研究提出MagicPIG系统，利用局部敏感哈希（LSH）解决大语言模型KV缓存的瓶颈问题。MagicPIG在多种任务中显著减少注意力计算量，同时保持高准确率，解码速度提升1.9到3.9倍。

BriefGPT - AI 论文速递 ·

Elastic Blog - Elasticsearch, Kibana, and ELK Stack ·

HyperAttention是用于解决大型语言模型计算挑战的近似注意力机制，具有模块化设计，能够与其他底层实现集成。通过使用局部敏感哈希来识别大条目，HyperAttention比现有方法更快，能够加快推理时间并提高困惑度。对于更大的上下文长度，HyperAttention能够实现5倍的加速。

BriefGPT - AI 论文速递 ·