DEV Community ·

如何在GPU虚拟机上设置和运行Ollama（vast.ai）

💡 原文英文，约700词，阅读约需3分钟。

📝

内容提要

本文讲解如何在GPU虚拟机上设置Ollama进行私有模型推理。首先，在Vast.ai上创建GPU虚拟机，确保至少有30GB存储空间。启动Jupyter终端，安装并运行Ollama服务，测试模型。可选地，检查GPU利用率。若使用自定义模型，需安装Hugging Face CLI，下载模型并创建配置文件，最后运行模型。通过这些步骤可提升推理性能。

🎯

关键要点

在Vast.ai上创建GPU虚拟机，确保至少有30GB存储空间。
启动Jupyter终端以便于操作。
安装Ollama服务并运行。
测试Ollama是否能成功运行模型。
可选：检查GPU利用率以确保其正常工作。
若使用自定义模型，需安装Hugging Face CLI并下载模型。
创建模型配置文件以便于Ollama识别。
使用Ollama运行自定义模型以进行推理。

🔎

延伸解读

GPU虚拟机的选择

在选择Vast.ai上的GPU虚拟机时，确保至少有30GB的存储空间是关键。这不仅能满足Ollama的安装需求，还能为模型提供足够的存储空间。选择成本低于每小时$0.30的虚拟机，可以有效控制项目预算。

Jupyter终端的使用

使用Jupyter终端进行操作可以简化设置过程。它提供了一个直观的界面，适合初学者。如果你更熟悉命令行，可以选择SSH连接，但需要额外配置SSH密钥。选择合适的工具可以提高工作效率。

自定义模型的配置

在使用自定义模型时，安装Hugging Face CLI并下载模型是必要步骤。创建模型配置文件时，确保参数设置合理，以便Ollama能够正确识别和运行模型。合理的配置可以显著提升推理效果。

❓

延伸问答

如何在Vast.ai上创建GPU虚拟机？

访问Vast.ai，创建一个至少有30GB存储空间的GPU虚拟机，以确保能够安装和存储模型。

如何安装和运行Ollama服务？

在Jupyter终端中运行命令 'bash curl -fsSL https://ollama.com/install.sh | sh' 来安装Ollama，然后使用 'bash ollama serve &' 启动服务。

如何测试Ollama是否能成功运行模型？

可以通过在终端中运行 'bash ollama run mistral' 来测试Ollama是否能成功运行模型。

如何检查GPU的利用率？

在推理过程中，可以运行命令 'bash nvidia-smi' 来检查GPU的利用率，确保内存利用率大于0%。

使用自定义模型时需要做哪些准备？

需要安装Hugging Face CLI，下载模型，并创建模型配置文件以便Ollama识别。

如何运行自定义模型？

使用命令 'ollama run mymodel' 来运行自定义模型。

🏷️