llama.cpp:CPU与GPU、共享VRAM与推理速度

💡 原文英文,约500词,阅读约需2分钟。
📝

内容提要

NVidia GPU在Windows用户中提供了共享GPU内存功能,允许系统内存用作虚拟VRAM。这可以在GPU的专用视频内存不足时提供帮助,但会对性能产生影响。作者测试了将GPU内存溢出到RAM对LLM训练速度的影响,并发现尽可能填充PC的RAM并使用共享GPU内存没有太大意义。作者还测试了不同的卸载设置,并发现使用50%的GPU和50%的CPU几乎完全填满了VRAM而没有溢出。结果显示,使用50/50的GPU/CPU具有最高的每秒标记数和最快的第一个标记时间。使用100%的GPU卸载会导致更多的系统内存使用。作者得出结论,使用共享VRAM没有太大意义。

🎯

关键要点

  • NVidia GPU在Windows用户中提供共享GPU内存功能,允许系统内存作为虚拟VRAM使用。
  • 共享GPU内存可以在专用视频内存不足时提供帮助,但会影响性能。
  • 作者测试了GPU内存溢出到RAM对LLM训练速度的影响,发现填充PC的RAM并使用共享GPU内存没有太大意义。
  • 测试了不同的卸载设置,发现50%的GPU和50%的CPU几乎完全填满了VRAM而没有溢出。
  • 使用50/50的GPU/CPU设置具有最高的每秒标记数和最快的第一个标记时间。
  • 使用100%的GPU卸载会导致更多的系统内存使用。
  • 作者得出结论,使用共享VRAM没有太大意义。
➡️

继续阅读