Ollama + WebUI:在 VPS/本地快速部署私有化大模型
随着 DeepSeek 和 Llama 4 等顶级大模型的开源,2026 年我们终于实现了“AI 自由”。你不再需要依赖昂贵的 API,也不必担心对话内容被云端厂商收集。
只要有一台带显卡的电脑,或者一台配置尚可的 VPS,你就能搭建一个完全属于自己的私有 AI 助手。本文将带你使用目前最流行的 Ollama 框架完成这一目标。
一、 为什么选择 Ollama?
在众多本地部署工具中,Ollama 脱颖而出的原因只有一个:简单。
- 一键运行:像运行 Docker 一样运行大模型。
- 自动优化:根据你的硬件(显卡/内存)自动选择量化版本。
- 丰富的库:官方模型库涵盖了目前市面上几乎所有主流开源模型。
- 轻量化:后台占用极低,支持 API 调用。
二、 步骤一:安装 Ollama
1. macOS / Windows 安装
直接前往 Ollama 官网 下载对应的安装包,像普通软件一样安装即可。
2. Linux / VPS 安装
在终端执行一行命令:
curl -fsSL https://ollama.com/install.sh | sh三、 步骤二:运行你的第一个模型
安装完成后,你就可以召唤 AI 了。
运行 DeepSeek R1 (推理模型)
ollama run deepseek-r1:7b提示:如果是显存较小的 VPS 或笔记本,建议先尝试 7b 或 14b 版本。
运行 Llama 4
ollama run llama4运行后,你会直接进入一个命令行聊天界面。但对于大多数人来说,这并不好用。我们需要一个像 ChatGPT 一样的网页界面。
四、 步骤三:部署 Open WebUI (极力推荐)
Open WebUI 是目前 Ollama 最完美的搭档,支持语音交互、文件上传(RAG)、多模型对比等功能。
使用 Docker 一键部署
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/data \
--name open-webui \
ghcr.io/open-webui/open-webui:main部署完成后,在浏览器访问 http://你的IP:3000 即可看到精美的 AI 聊天界面。
五、 进阶:如何在 VPS 上发挥最大性能?
如果你是在 VPS 上部署,通常没有高端显卡。
1. 内存 vs 显存
- 如果没有 GPU,Ollama 会自动切换到 CPU 模式。此时内存频率和核心数决定了生成速度。
- 建议至少配备 16GB 内存 来运行 14B 以上的模型。
2. 模型量化
如果你发现模型运行太慢,可以尝试下载更小规模的版本:
deepseek-r1:1.5b(极速,适合低配)deepseek-r1:8b(平衡)deepseek-r1:32b(需要 32GB 内存)
3. 外网安全访问
如果你想在公网访问你的 WebUI,建议配合 Cloudflare Tunnel 或 Nginx 反向代理,并务必开启 WebUI 的登录账号密码。
六、 常用 Ollama 命令手册
| 命令 | 说明 |
|---|---|
ollama list | 查看本地已下载的所有模型 |
ollama pull [name] | 仅下载模型,不运行 |
ollama rm [name] | 删除某个模型 |
ollama ps | 查看当前正在运行的模型 |
ollama serve | 手动启动 Ollama 服务端 |
🛡️ 结语
Ollama + Open WebUI 的组合,让你在几分钟内就能拥有一个“本地版 ChatGPT”。无论你是为了隐私安全,还是为了在断网环境下也能使用 AI,这套方案都是 2026 年的最佳选择。
快去试试运行一个 deepseek-r1,感受一下私有 AI 的魅力吧!
延伸阅读
免责声明
本文仅供技术交流和学习参考。涉及第三方服务的链接可能包含 sponsored 标记,请自行核实服务条款、价格和可用性,并遵守当地法律法规。