小红花·文摘

informal ·

本研究提出GaLore 2，利用梯度低秩投影技术解决大语言模型训练中的内存瓶颈，支持高达5000亿个训练标记的预训练，展示了其实际应用潜力。

BriefGPT - AI 论文速递 ·

本研究提出了一种基于L2缓存的异步KV缓存预取方法，有效解决了大型语言模型推理中的内存瓶颈问题，显著提升了效率和吞吐量，超越了FlashAttention-3技术。

BriefGPT - AI 论文速递 ·

本研究提出了一种新的即插即用KV缓存量化方法VidKV，旨在解决视频大型语言模型在处理长视频时的内存瓶颈问题。该方法将KV缓存压缩至低于2位，并通过通道级别量化实现精度与性能的平衡。

BriefGPT - AI 论文速递 ·

本研究提出了一种名为Q-过滤器的KV缓存压缩方法，旨在解决自回归语言模型中的内存瓶颈问题。Q-过滤器通过高效的近似查询和键向量，在长上下文中表现出色，显著降低文本生成的不确定性。

BriefGPT - AI 论文速递 ·

本研究提出HEADINFER方法，解决大型语言模型在长上下文生成中的内存瓶颈问题。通过将键值缓存卸载到CPU RAM，显著降低GPU内存占用，最高可达92%，使得在单个消费级GPU上实现400万Token推理成为可能。

BriefGPT - AI 论文速递 ·

DEV Community ·

本研究探讨了大型语言模型推理中KV缓存的内存瓶颈问题。通过量化修剪，使用较低精度存储更多Token显著提升了长上下文性能，尤其在检索任务中表现优异，为KV缓存压缩中的Token-精度权衡提供了新见解。

BriefGPT - AI 论文速递 ·

Go的并发运行时在云应用程序中扩展性好，但在裸机上运行时存在内存和网络瓶颈。调整垃圾回收器可提升硬件性能，但增加内存使用量。通过在每台主机上运行更多的Go运行时并分散网络I/O负载到多个容器中，可以提高性能和吞吐量。

极道 ·

本文提出了 per-IC 量化和 AdaDim 两种基于权重的量化方案，以解决大型语言模型在小批量推断设置下的内存瓶颈问题。AdaDim 在基础的语言建模基准测试和指导性调优的 LLMs 中都取得了显著的改进效果。

BriefGPT - AI 论文速递 ·