llama.cpp:CPU与GPU、共享VRAM与推理速度
💡
原文英文,约500词,阅读约需2分钟。
📝
内容提要
NVidia GPU在Windows用户中提供了共享GPU内存功能,允许系统内存用作虚拟VRAM。这可以在GPU的专用视频内存不足时提供帮助,但会对性能产生影响。作者测试了将GPU内存溢出到RAM对LLM训练速度的影响,并发现尽可能填充PC的RAM并使用共享GPU内存没有太大意义。作者还测试了不同的卸载设置,并发现使用50%的GPU和50%的CPU几乎完全填满了VRAM而没有溢出。结果显示,使用50/50的GPU/CPU具有最高的每秒标记数和最快的第一个标记时间。使用100%的GPU卸载会导致更多的系统内存使用。作者得出结论,使用共享VRAM没有太大意义。
🎯
关键要点
- NVidia GPU在Windows用户中提供共享GPU内存功能,允许系统内存作为虚拟VRAM使用。
- 共享GPU内存可以在专用视频内存不足时提供帮助,但会影响性能。
- 作者测试了GPU内存溢出到RAM对LLM训练速度的影响,发现填充PC的RAM并使用共享GPU内存没有太大意义。
- 测试了不同的卸载设置,发现50%的GPU和50%的CPU几乎完全填满了VRAM而没有溢出。
- 使用50/50的GPU/CPU设置具有最高的每秒标记数和最快的第一个标记时间。
- 使用100%的GPU卸载会导致更多的系统内存使用。
- 作者得出结论,使用共享VRAM没有太大意义。
➡️