如果你希望把 PDF/Word/Markdown 等资料留在本地电脑里,通过“提问-检索-回答”的方式快速找到关键信息,又不想把文档上传到第三方平台,那么可以用 Ollama 作为本地大模型运行器,再用 Open WebUI 提供可视化界面与知识库(RAG)能力。
本文以 Windows 为例(macOS/Linux 也同理),按“安装模型 -> 启动 WebUI -> 导入文档 -> 调优检索”一步步完成。
硬件:8GB 内存可跑小模型,16GB+ 体验更好;有独显会更快,但不是必需。
资料:建议先准备 5-20 个文档做试验(例如项目方案、产品文档、会议纪要)。注意先清理掉不该进入知识库的敏感信息。
网络:首次下载模型需要联网;后续可离线使用。
前往 Ollama 官网下载安装到本机。安装完成后,打开命令行验证版本,并拉取一个轻量模型做测试。
ollama -v # 先用轻量模型验证(示例) ollama pull llama3.2 ollama run llama3.2建议先用轻量模型确认流程跑通,再根据机器配置换更大的模型。
Open WebUI 可以通过 Docker 部署。安装好 Docker Desktop 后,按以下方式启动容器(端口可按需调整)。
docker run -d --name open-webui \ -p 3000:8080 \ -e OLLAMA_ _URL=http://host.docker.internal:11434 \ -v open-webui:/app/backend/data \ --restart unless-stopped \ ghcr.io/open-webui/open-webui:main启动后在浏览器打开 http://localhost:3000,首次进入会创建管理员账号。
在 Open WebUI 的模型列表中选择刚才拉取的模型,先做一次简单对话,确认 WebUI 能正常调用 Ollama。
如果模型列表为空,优先检查:Docker 容器环境变量 OLLAMA_ _URL 是否正确、Ollama 服务是否在运行、以及是否被本机防火墙拦截。
在 Open WebUI 的知识库/文档管理中创建一个新的知识库,例如“产品资料库”。导入文档时建议遵循两条原则:
1) 先少量导入,观察检索效果,再逐步扩大;
2) 文档命名清晰(日期-主题-版本),便于检索结果可追溯。
导入后可以用几条“带关键字段的问题”验证:例如“某功能的上线时间是什么?”“XX接口的字段含义?”等,观察答案是否能引用到对应段落。
技巧A:先整理再导入。扫描版 PDF、图片型文档可能无法直接检索,建议先 OCR 或转成可搜索文本。
技巧B:按主题拆分。把“所有资料”塞进一个知识库往往会让检索变杂;按项目/产品/部门分多个知识库更容易命中。
技巧C:问题写具体。提问时加入限定词:时间、模块名、版本号、负责人、文件名等,能显著提高相关段落排名。
1) 尽量只在本机访问 WebUI,不要把端口暴露到公网。
2) 知识库里不要放入不必要的个人隐私、账号密钥、商业机密。
3) 若需要团队共用,建议通过内网、权限控制与审计来做分发,并设置强密码。
Q:WebUI 提示连接不上 Ollama? 先确认 Ollama 本地端口(默认 11434)可访问;再检查容器的 OLLAMA_ _URL 是否指向正确地址。
Q:回答不准确/编造? 尝试让问题更具体,或要求“只基于知识库回答并引用来源”;必要时缩小知识库范围、清理重复文档。
Q:速度太慢? 换更小模型、减少并发、或使用性能更好的硬件;同时避免一次性导入超大文档集合。
到这里,你就拥有了一个可离线运行的本地知识库问答工具:文档在自己手里,提问也更高效。