DEV Community ·

llama.cpp：CPU与GPU、共享VRAM与推理速度

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

NVidia GPU在Windows用户中提供了共享GPU内存功能，允许系统内存用作虚拟VRAM。这可以在GPU的专用视频内存不足时提供帮助，但会对性能产生影响。作者测试了将GPU内存溢出到RAM对LLM训练速度的影响，并发现尽可能填充PC的RAM并使用共享GPU内存没有太大意义。作者还测试了不同的卸载设置，并发现使用50%的GPU和50%的CPU几乎完全填满了VRAM而没有溢出。结果显示，使用50/50的GPU/CPU具有最高的每秒标记数和最快的第一个标记时间。使用100%的GPU卸载会导致更多的系统内存使用。作者得出结论，使用共享VRAM没有太大意义。

🎯

关键要点

NVidia GPU在Windows用户中提供共享GPU内存功能，允许系统内存作为虚拟VRAM使用。
共享GPU内存可以在专用视频内存不足时提供帮助，但会影响性能。
作者测试了GPU内存溢出到RAM对LLM训练速度的影响，发现填充PC的RAM并使用共享GPU内存没有太大意义。
测试了不同的卸载设置，发现50%的GPU和50%的CPU几乎完全填满了VRAM而没有溢出。
使用50/50的GPU/CPU设置具有最高的每秒标记数和最快的第一个标记时间。
使用100%的GPU卸载会导致更多的系统内存使用。
作者得出结论，使用共享VRAM没有太大意义。

🏷️

继续阅读

苹果iPad Air M4评测：速度略有提升
M4 Air在CPU性能上比M3 Air快20-25%，GPU性能快10-15%。尽管性能提升明显，但实际使用中差异不大，仅在Spotlight搜索中M4...
OpenAI宣布收购AI安全初创公司Promptfoo 可以提高智能体的安全防御能力
#人工智能 OpenAI 宣布收购 AI 安全初创公司 Promptfoo，后者的技术将被用于提升 AI 智能体的安全性。Promptfoo 成立于 20...
受内存涨价和供应紧张影响 OPPO/OnePlus宣布从3月16日开始对产品涨价
#手机数码受内存涨价和供应紧张影响，OPPO 和 OnePlus 宣布从 3 月 16 日 0 时开始调整部分已发售产品价格。坊间传闻涨价幅度在 300...
在线教程丨免费CPU资源快速部署，覆盖Qwen3.5/DeepSeek-R1/Gemma 3/Llama 3.2等热门开源模型
HyperAI 的「教程」版块上线了 Qwen、DeepSeek、Gemma、Llama、GLM 等热门开源模型基于 CPU 的在线运行教程，提供从环境准...
微软正在努力修复Windows 11资源管理器启动和调整元素时的白屏闪烁问题
#系统资讯微软正在努力修复 Windows 11 资源管理器深色模式下偶尔出现的白屏闪烁问题，去年 12 月微软就说已经修复但并未成功。在最新的博客中微...
喜报！谷歌推出官方CLI工具帮助OpenClaw操作邮箱这下没有封号风险
谷歌推出了一款官方CLI工具，旨在安全连接Gmail等服务，支持个人和企业账户，并内置40多种智能技能。该工具可与OpenClaw集成，实现操作自动化，但...

llama.cpp：CPU与GPU、共享VRAM与推理速度

内容提要

关键要点

标签

继续阅读