如果你想在本机离线运行大模型(减少云端依赖、提升隐私与稳定性),Ollama 是目前最省心的本地模型运行器之一;Open WebUI 则提供了接近“网页 ChatGPT”的可视化界面,支持会话管理、模型切换与基础参数调节。
本文用“可复现”的方式,把安装、模型管理、常见问题、以及如何安全地在局域网访问一次讲透。所有示例均为合法合规的本地使用场景,不包含攻击、入侵、破解或绕过付费等敏感细节。
最低建议:16GB 内存;系统盘预留 20GB+;优先使用有较大显存的独显(没有也能跑,只是更慢)。
网络与权限:首次下载模型需要稳定网络;后续本地推理可离线进行。
Windows:到 Ollama 官网下载安装包,安装完成后会常驻服务。
macOS:同样从官网安装,首次运行按提示授权即可。
Linux:按官方脚本安装(不同发行版会略有差异),安装完成后确认服务已启动。
安装是否成功的快速判断:打开终端执行 ollama --version 能输出版本号;或者用 ollama list 查看本地模型列表。
1)模型大小决定体验:7B 级别通常更容易在普通电脑上跑起来;更大模型需要更高内存/显存。
2)下载后可重复使用:模型下载到本地后,不必每次重复拉取。
3)用“列表 + 删除”管理空间:模型占用磁盘很快,建议定期清理。
# 拉取一个常见模型(示例) ollama pull llama3 # 查看已下载模型 ollama list # 删除不再使用的模型 ollama rm llama3方式A:Docker(更推荐)。优点是升级/迁移方便,依赖更少;缺点是需要先安装 Docker Desktop(Windows/macOS)或 Docker(Linux)。
方式B:本地 Python/Node 部署。适合不想用 Docker 的用户,但环境依赖更多,排错成本更高。
本文以 Docker 方式为例,思路是:Open WebUI 作为一个本地服务运行,通过浏览器访问;它再去连接本机的 Ollama 服务。
下面给一个“可直接照抄”的示例命令。不同系统的路径与端口可按需调整:
# 启动 Open WebUI(示例) # 访问地址通常为:http://localhost:3000 # 说明:为了避免误暴露,不建议把服务直接映射到公网 docker run -d --name open-webui \ -p 3000:8080 \ -v open-webui:/app/backend/data \ --restart unless-stopped \ ghcr.io/open-webui/open-webui:main启动后打开浏览器访问 http://localhost:3000,首次会要求创建管理员账号。
如果你在 WebUI 里看不到模型或无法对话,按这个顺序排查:
1)Ollama 服务是否在运行:确保 Ollama 已启动(Windows/macOS 一般有托盘/菜单栏图标;Linux 确认服务状态)。
2)本机端口是否可达:Ollama 默认监听本机接口;如果 WebUI 跑在容器里,需要正确访问宿主机地址。
3)先用命令行验证模型:在终端执行 ollama run llama3 能正常输出,说明模型本身没问题。
很多人希望手机/平板也能用同一套本地 AI。推荐做法是:只开放到局域网,并启用登录/强密码;不要直接做公网端口转发。
步骤建议:
1)确认电脑与手机在同一 Wi‑Fi;2)在路由器或系统防火墙中仅允许内网访问;3)在 Open WebUI 内开启账号体系与权限管理。
如果要改端口或绑定地址,请优先阅读官方文档,避免误把服务暴露到公网。
下载慢/中断:换稳定网络或分时段下载;尽量避免同时拉多个大模型。
显存/内存不够:换更小的模型(如 7B),或关闭其他占用内存的软件;必要时重启服务。
WebUI 能打开但无法对话:优先确认 Ollama 服务正常、模型已下载;再检查 WebUI 的 Ollama 连接设置。
建议你为本地 AI 做三件事:保留 1-2 个常用模型即可;为不同任务建立固定提示词模板;定期清理不再用的模型与对话数据,保持磁盘空间与性能。
到这里,你就拥有了一套“可控、可迁移、可在内网多端使用”的本地 AI 助手工作流。