Ollama 是一个把开源大模型“像装应用一样”跑起来的工具:一条命令即可下载模型并启动本地服务。本文按“能照做”的思路写:装好 → 跑通 → 管理模型 → 接入应用 → 排错。
硬件建议:能跑就行,但体验差异很大。没有独显也能用 CPU 跑小模型(速度慢);有独显/更大内存会更顺滑。
磁盘空间:模型文件通常是 GB 级,建议预留 20GB 以上空间,避免下载一半失败。
网络:首次拉取模型需要稳定网络,建议使用有线或稳定 Wi‑Fi。
Windows:优先使用官方安装包安装。安装完成后,在开始菜单找到 Ollama 或在终端直接运行 ollama 相关命令。
macOS:使用官方应用或安装方式完成后,确保系统允许其运行(隐私与安全性中放行)。
Linux:按官方提供的安装脚本/包管理方式安装。安装后确认服务已启动。
验证安装:打开终端,执行 ollama --version。能输出版本号说明安装成功。
选择一个入门模型(体积小、容易跑通),然后执行:
ollama pull llama3 ollama run llama3看到提示后输入问题即可对话。想退出:输入 /bye 或直接关闭终端。
小技巧:首次运行会花时间做初始化;如果卡住,先等 1-2 分钟再判断是否失败。
查看本地已有模型:
ollama list删除不用的模型(释放磁盘):
ollama rm llama3常见误区:删掉模型不会影响 Ollama 本体,只是删除模型文件;如果后面还要用,可以再 pull 回来。
Ollama 默认会启动本地服务(通常是 http://127.0.0.1:11434)。你可以:
在同一台电脑上调用:这最安全、最推荐,不需要开放端口给外网。
用 curl 快速测试(示例):
curl http://127.0.0.1:11434/api/generate -d '{"model":"llama3","prompt":"用三句话解释什么是本地大模型"}'接入 Chat 客户端:不少本地聊天客户端支持“OpenAI 兼容接口”或“自定义 API”。配置时优先选择本机地址,模型名填你 ollama list 里看到的名称。
慢的常见原因:
优化建议:
问题 A:命令提示“ollama 不是内部或外部命令”
问题 B:pull 很慢或中断
问题 C:运行时提示内存不足 / 崩溃
问题 D:API 访问失败(连接不上 11434)
本地大模型适合处理个人笔记、离线资料整理等场景。避免让模型生成或执行任何违法违规内容;也不要随意把本地服务端口暴露到公网。
先跑通一个小模型 → 学会 list/rm 管理模型 → 再把本地 API 接入你常用的笔记/聊天工具。流程跑顺以后,再考虑更大的模型与更精细的参数调优。