用 Ollama？其實你在跑 llama.cpp！學會直接使用它，發揮更強性能！

DEV Community ·

用 Ollama？其實你在跑 llama.cpp！學會直接使用它，發揮更強性能！

💡 原文中文，约2400字，阅读约需6分钟。

📝

内容提要

Ollama 允许用户在本地运行大型语言模型，提供模型托管服务。核心技术为 llama.cpp，支持 GGUF 模型格式。指南介绍如何在 Jetson Orin Nano 上编译 llama.cpp、转换 GGUF 模型并进行量化，以提高推理速度和减少内存占用。完成模型准备后即可进行推理。

🎯

关键要点

Ollama 允许用户在本地运行大型语言模型，提供模型托管服务。
核心技术为 llama.cpp，支持 GGUF 模型格式。
指南介绍如何在 Jetson Orin Nano 上编译 llama.cpp、转换 GGUF 模型并进行量化。
编译 llama.cpp 需要安装必要的依赖项，包括 CUDA 支持、CMake 和 g++ 编译器。
下载并编译 llama.cpp 的步骤包括克隆仓库和启用 CUDA 加速。
GGUF 模型可以通过 Hugging Face 下载，或使用提供的 Python 脚本自行转换。
量化模型可以提高推理速度并减少内存占用，建议尝试多种量化方案。
完成模型准备后，可以开始执行推理并加载模型进行对话。

❓

延伸问答

Ollama 是什么？

Ollama 是一个允许用户在本地运行大型语言模型的工具，并提供模型托管服务。

如何在 Jetson Orin Nano 上编译 llama.cpp？

在 Jetson Orin Nano 上编译 llama.cpp 需要安装 CUDA 支持、CMake 和 g++ 编译器，然后克隆仓库并启用 CUDA 加速。

GGUF 模型格式是什么？

GGUF 是由 llama.cpp 的作者开发的模型格式，用于支持大型语言模型的运行。

如何将 Hugging Face 模型转换为 GGUF 格式？

可以使用 llama.cpp 提供的 Python 脚本，将 Hugging Face 模型下载后转换为 GGUF 格式。

量化模型有什么好处？

量化模型可以提高推理速度并减少内存占用，使得原本需要 9G 内存的模型只需 5G 即可运行。

如何开始执行推理？

完成模型准备后，可以使用命令 ./build/bin/llama-cli -m ./models/Phi-4-mini-instruct-q4.gguf 开始执行推理。

🏷️

继续阅读

荣耀WIN游戏本发布，刷新行业散热上限，至高270W极致性能输出
2026年4月23日，荣耀WIN游戏本暨全场景新品发布会于成都举办，正式发布了全新的荣耀WIN游戏本系列和旗舰轻薄本荣耀MagicBook Pro系列等多...
先进封装极限突现：性能驱动到系统失控的临界转折解析
先进封装已成为半导体性能的关键因素，影响系统稳定性。多芯片集成带来热密度和应力问题，封装设计需在芯片架构确定前介入。材料的复杂耦合和翘曲问题影响良率，玻璃...
扒完 DeepSeek V4 报告，我翻出了这个隐藏彩蛋
你的 MLA 是我的基础，我的 Muon 是你的加速器。#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。
Axios npm供应链安全事件 - 针对Azure Pipelines客户的指导
On March 31, 2026, malicious versions of the widely used JavaScript HTTP clie...
参加全国大学生智能汽车竞赛需要的CSK5062离线语音控制资源上手指引
这篇文章会把第21届全国智能汽车竞赛讯飞组赛项中电子红绿灯需要使用的CSK5062芯片信息进行汇总，并提供官方示例来源，以方便大家快速了解和获得实现离线语...
Rocketium任命两位执行合伙人，推动AI Studio企业业务增长
Rocketium任命Hitesh Mehta和Sharon Foo为执行合伙人，旨在推动AI Studio的企业业务增长。两位合伙人将利用其丰富的广告行...