Ollama 可以让你在本机运行开源大模型,适合做:离线草稿写作、总结归纳、简单问答、代码注释与格式化、个人知识库的辅助检索等。它不是“万能 AI”,不同模型在中文能力、推理能力、速度与显存占用上差异很大。
合规提示:请勿用本地模型去生成攻击、入侵、破解、绕过付费或窃取隐私等内容;本文只讨论正常学习与效率工具场景。
Windows:到 Ollama 官网下载安装包,按向导安装即可。安装后会有后台服务负责拉取与运行模型。
macOS:同样从官网下载安装(常见是 .dmg)。首次打开如果系统提示安全确认,按提示允许即可。
Linux:可按官网提供的安装脚本/包管理方式安装。不同发行版命令不同,优先以官网说明为准。
小建议:如果你主要在笔记本上用,优先选“体积小一点”的模型,体验更顺滑;台式机或有独显再考虑更大模型。
Ollama 的基本使用流程是:pull 拉模型 → run 运行模型。下面给一套通用示例(不同系统命令相同):
# 拉取一个模型(示例) ollama pull llama3.1 # 运行并进入交互对话 ollama run llama3.1如果你不确定选哪个模型,可以先从“参数量更小、下载更快”的开始,用起来再换。
常用的管理命令:
# 查看本机已有模型 ollama list # 删除不再使用的模型(释放磁盘空间) ollama rm llama3.1建议你把常用模型控制在 2-4 个:一个偏通用、一个偏中文、一个偏代码(可选),避免磁盘被不知不觉占满。
Ollama 通常会在本机提供一个 HTTP 接口(默认仅本机访问)。你可以用它接入:
自动化工具(如 Keyboard Maestro / Alfred / Raycast / Power Automate)、笔记应用、个人脚本、甚至局域网内的测试服务。
下面是一个最小可用的请求示例(用于理解结构):
curl http://localhost:11434/api/generate -d '{ "model": "llama3.1", "prompt": "把下面这段话改写得更清晰:...", "stream": false }'实用技巧:把“提示词模板”固化下来,比如“先列大纲再输出正文”“先给结论再解释”“输出要点用编号”,效果会稳定很多。
遇到体验不佳时,优先按这个顺序排查:
1)换更小的模型:模型越大越吃算力,先用小模型把流程跑通。
2)降低上下文长度:一次性塞太多资料会让速度显著下降。
3)减少并发:同时跑多个请求会卡顿甚至崩溃。
4)清理磁盘与重启服务:模型缓存/临时文件过多也会拖慢。
本地运行的优势是数据不必默认上传到第三方,但仍要注意:
- 不要把包含敏感个人信息的原始数据长期留在提示词历史或日志里。
- API 默认建议仅绑定本机(localhost)。如果你要开放到局域网,一定要加访问控制与网络隔离。
- 对输出结果要做人工复核,尤其是涉及数字、条款、医学/法律建议时。
你可以把下面这段当作系统提示词(或固定在你的自动化工具里):
你是我的本地效率助手。 - 先问清目标与约束(时间/格式/受众)。 - 输出结构:先给结论/方案,再给步骤,再给注意事项。 - 对不确定的内容明确标注“不确定/需核对”。 - 不提供任何攻击、入侵、破解、绕过付费或违法用途的细节。1)先跑通一次 pull + run;2)用同一模型做 3 个任务:改写、总结、列清单;3)再尝试用 API 接入一个你常用的工具(如自动化或笔记)。做到这一步,本地大模型就能真正进入你的日常工作流了。