Nicksxs's Blog ·

看看目前本地能跑什么模型,使用llama.cpp

💡 原文中文，约1300字，阅读约需3分钟。

📝

内容提要

文章讨论了在本地运行小型开源模型的可行性，特别是使用llama.cpp项目。作者分享了在Windows上使用3060显卡运行Qwen3.6 9B模型的设置，包括CUDA版本和参数配置。尽管显存有限，这些模型在简单任务中仍能有效使用。

🎯

🔎

随着开源模型的发展，本地运行小型模型的可行性逐渐提高，尤其是使用llama.cpp项目。尽管本地模型在性能上可能不及云服务，但对于简单任务而言，仍然可以提供有效的支持。用户可以在不依赖外部API的情况下，进行一些基本的实验和开发。

在使用3060显卡运行Qwen3.6 9B模型时，显存管理至关重要。文章提到通过调整参数和上下文设置，成功将显存占用控制在5.2GB。这表明，合理的参数配置可以有效避免显存不足的问题，确保模型在本地运行时的稳定性。

文章强调了CUDA版本对模型运行的重要性，特别是使用CUDA 12.4 DLLs以避免模型在CPU模式下运行。选择合适的CUDA版本不仅能提升模型性能，还能确保显卡资源的充分利用，用户在配置时应特别注意这一点。

❓

可以通过下载llama的主包和CUDA 12.4 DLLs，在Windows上配置3060显卡来运行模型。

需要使用CUDA版本12，确保下载CUDA 12.4 DLLs以避免模型在CPU模式下运行。

在运行Qwen3.6 9B模型时，显存占用为5.2GB。

llama.cpp支持的上下文大小为64k，以满足hermes agent的要求。

在简单任务中，Qwen3.6 9B模型的性能可达到6.6token/s，仍然可用。

可以通过设置加载层数为26层来调整显存使用，避免显存不足的问题。

🏷️