看看目前本地能跑什么模型,使用llama.cpp

看看目前本地能跑什么模型,使用llama.cpp

💡 原文中文,约1300字,阅读约需3分钟。
📝

内容提要

文章讨论了在本地运行小型开源模型的可行性,特别是使用llama.cpp项目。作者分享了在Windows上使用3060显卡运行Qwen3.6 9B模型的设置,包括CUDA版本和参数配置。尽管显存有限,这些模型在简单任务中仍能有效使用。

🎯

关键要点

  • 本地运行小型开源模型的可行性逐渐提高,尤其是使用llama.cpp项目。

  • 作者在Windows上使用3060显卡运行Qwen3.6 9B模型,CUDA版本为12。

  • 需要下载llama的主包和CUDA 12.4 DLLs,以避免模型在CPU模式下运行。

  • 设置参数时,使用了Q4_K_M量化,设置上下文为64k以满足hermes agent的要求。

  • 通过调整显存使用,加载26层以避免显存不足的问题,最终显存占用为5.2g。

  • 在简单任务中,模型的性能仍然可用,达到6.6token/s的速度。

延伸问答

如何在本地运行llama.cpp模型?

可以通过下载llama的主包和CUDA 12.4 DLLs,在Windows上配置3060显卡来运行模型。

使用llama.cpp时需要注意哪些CUDA版本?

需要使用CUDA版本12,确保下载CUDA 12.4 DLLs以避免模型在CPU模式下运行。

Qwen3.6 9B模型的显存占用是多少?

在运行Qwen3.6 9B模型时,显存占用为5.2GB。

llama.cpp支持的上下文大小是多少?

llama.cpp支持的上下文大小为64k,以满足hermes agent的要求。

在简单任务中,Qwen3.6 9B模型的性能如何?

在简单任务中,Qwen3.6 9B模型的性能可达到6.6token/s,仍然可用。

如何调整显存使用以避免OOM错误?

可以通过设置加载层数为26层来调整显存使用,避免显存不足的问题。

➡️

继续阅读