这篇教程适合想在本地电脑上体验大模型(不依赖第三方网页端)的人:可离线运行、数据更可控、也方便把模型当成工具集成到工作流里。
准备清单
1)一台 Windows / macOS / Linux 电脑(建议 16GB 内存起步,8GB 也能跑轻量模型)。
2)稳定网络(首次下载模型会比较耗时)。
3)磁盘空间:至少预留 20GB(不同模型体积差异很大)。
Windows
1)访问 Ollama 官网下载 Windows 安装包并安装。
2)安装完成后,打开 PowerShell/命令提示符,输入:ollama --version 验证是否安装成功。
macOS
1)下载 macOS 版本并安装(通常为 .dmg)。
2)在终端输入:ollama --version 验证。
Linux
1)根据官网指引执行安装脚本或包管理安装。
2)安装后在终端验证版本。
注意:如果你在公司网络环境,可能需要允许访问下载域名,否则后续拉取模型会失败。
建议先从轻量、通用模型开始测试,确认能跑起来再换更大的模型。
1)在终端执行(示例):ollama pull qwen2.5:7b(仅示例,以你实际可用的模型为准)。
2)拉取完成后运行:ollama run qwen2.5:7b
3)看到可以输入对话内容时,说明本地模型已能正常运行。
小技巧:如果下载很慢,可以先换小一点的模型(例如 3B/4B/7B 级别),或在网络更顺畅的时段再拉取。
Open WebUI 可以把 Ollama 变成一个更易用的“网页端聊天界面”,支持历史记录、多模型切换、系统提示词等。
推荐方式:Docker 部署(跨平台一致)
1)确保已安装 Docker(Windows 建议搭配 WSL2;macOS 安装 Docker Desktop)。
2)启动 Docker 后,按 Open WebUI 官方文档的命令启动容器。
3)启动成功后,在浏览器打开对应地址(常见为 http://localhost:3000 或文档指定端口)。
不想用 Docker? 也可以按官方文档用 Python/Node 等方式部署,但新手更推荐 Docker,出错率更低。
1)进入 Open WebUI 后,打开设置(Settings)。
2)找到 Ollama 连接项,确认 Ollama 服务地址(常见为 http://localhost:11434)。
3)保存后刷新页面,模型列表应能看到已下载的模型(例如你刚拉取的那个)。
4)选择模型,发送一条测试消息(例如“用 3 句话介绍你能做什么”)。
1)模型命名与清理
建议只保留常用模型:通用写作/翻译 1 个、代码 1 个、轻量随身 1 个。避免磁盘很快爆掉。
2)系统提示词(System Prompt)模板
把你常用的“写作风格/格式要求/输出结构”写成模板,能显著提升稳定性。
3)温度、上下文长度
温度越高越发散;越低越稳定。新手建议先用默认值,确认效果后再微调。
问题 1:Open WebUI 打不开 / 端口被占用
1)检查容器是否在运行(Docker 面板)。
2)尝试换一个端口启动。
3)关闭可能占用端口的软件(例如本地代理、旧服务)。
问题 2:Open WebUI 看不到 Ollama 模型
1)确认 Ollama 服务在运行(重新打开终端执行 ollama list)。
2)确认连接地址是 http://localhost:11434(或你自定义的地址)。
3)如果 Open WebUI 在容器里,需按文档使用正确的网络访问方式(例如 host.docker.internal 等)。
问题 3:模型下载失败/中断
1)换网络或更换下载时间段。
2)优先下载更小体积模型验证流程。
3)磁盘空间不足也会导致失败,先清理再重试。
问题 4:运行很慢
1)先换更小模型(3B/7B)确认速度。
2)关闭后台占用资源的软件。
3)如果有独显,确保驱动正常、系统能识别到 GPU(具体以你的系统为准)。
1)安装 Ollama 并通过 ollama --version 验证。
2)拉取一个轻量模型并用 ollama run ... 能对话。
3)部署 Open WebUI,打开网页,连上 localhost:11434,发送测试消息。
完成这三步,你就拥有了一个可复用的本地大模型工作台。