小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
GRPO

深度学习训练速度主要受内存瓶颈和计算瓶颈的限制,前者是内存访问时间,后者是计算时间。

GRPO

informal
informal · 2025-05-19T16:00:00Z

本研究提出GaLore 2,利用梯度低秩投影技术解决大语言模型训练中的内存瓶颈,支持高达5000亿个训练标记的预训练,展示了其实际应用潜力。

GaLore 2: Large-Scale LLM Pre-training via Gradient Low-Rank Projection

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-29T00:00:00Z

本研究提出了一种基于L2缓存的异步KV缓存预取方法,有效解决了大型语言模型推理中的内存瓶颈问题,显著提升了效率和吞吐量,超越了FlashAttention-3技术。

Accelerating Throughput of Large Language Model Inference via Asynchronous KV Cache Prefetching

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-08T00:00:00Z

本研究提出了一种新的即插即用KV缓存量化方法VidKV,旨在解决视频大型语言模型在处理长视频时的内存瓶颈问题。该方法将KV缓存压缩至低于2位,并通过通道级别量化实现精度与性能的平衡。

Plug-and-Play 1.x-Bit KV Cache Quantization for Video Large Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z

本研究提出了一种名为Q-过滤器的KV缓存压缩方法,旨在解决自回归语言模型中的内存瓶颈问题。Q-过滤器通过高效的近似查询和键向量,在长上下文中表现出色,显著降低文本生成的不确定性。

Q-Filter: Efficient KV Cache Compression Using QK Geometry

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-04T00:00:00Z

本研究提出HEADINFER方法,解决大型语言模型在长上下文生成中的内存瓶颈问题。通过将键值缓存卸载到CPU RAM,显著降低GPU内存占用,最高可达92%,使得在单个消费级GPU上实现400万Token推理成为可能。

HeadInfer: Memory-Efficient Inference for Large Language Models through Key Offloading

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-18T00:00:00Z
性能可以很简单:内存中的巨大文件

文章讨论了应用程序性能优化的基本原则,重点在于识别和解决内存瓶颈。通过分析生成65MB CSV文件的过程,发现内存消耗过高,并提出减少字符串操作和优化代码结构的解决方案。最终,内存使用减少了60%。作者建议进一步优化文件生成和传输方式,以提升效率。

性能可以很简单:内存中的巨大文件

DEV Community
DEV Community · 2025-02-04T13:48:56Z

本研究探讨了大型语言模型推理中KV缓存的内存瓶颈问题。通过量化修剪,使用较低精度存储更多Token显著提升了长上下文性能,尤其在检索任务中表现优异,为KV缓存压缩中的Token-精度权衡提供了新见解。

More Tokens, Lower Precision: Advancing Towards the Optimal Token-Precision Trade-off in KV Cache Compression

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-17T00:00:00Z

Go的并发运行时在云应用程序中扩展性好,但在裸机上运行时存在内存和网络瓶颈。调整垃圾回收器可提升硬件性能,但增加内存使用量。通过在每台主机上运行更多的Go运行时并分散网络I/O负载到多个容器中,可以提高性能和吞吐量。

Go运行时的两个主要限制

极道
极道 · 2024-01-12T07:36:00Z

本文提出了 per-IC 量化和 AdaDim 两种基于权重的量化方案,以解决大型语言模型在小批量推断设置下的内存瓶颈问题。AdaDim 在基础的语言建模基准测试和指导性调优的 LLMs 中都取得了显著的改进效果。

重新思考通道维度,以隔离大型语言模型低比特权重量化中的异常值

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-27T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码