本地部署大模型完全指南:Ollama + vLLM + LMStudio 实战
为什么要本地部署? 在云端API满天飞的2025年,为什么还要本地部署大模型? 理由1:隐私安全 你的代码、文档、聊天记录……全都发给了云端。 1 2 3 4 敏感场景: - 公司内部代码 → 发给OpenAI? - 医疗病历数据 → 发给云端? - 法律合同文本 → 谁来保证不泄露? 本地部署 = 数据永远不出你的电脑。 理由2:成本控制 使用场景 云端API成本 本地部署成本 每天1万次调用 ~$300/月 电费 ~$30/月 7B模型长期使用 持续付费 一次性硬件投入 团队10人使用 $200+/人/月 共享一台服务器 理由3:低延迟 云端API:网络往返 100-500ms 本地部署:几乎零延迟 理由4:自由定制 想微调?随便调 想改提示词模板?自己改 想限制输出长度?随心所欲 硬件要求 最低配置(跑7B模型) 1 2 3 4 5 CPU:8核以上 内存:16GB 显卡:8GB显存(如RTX 3070) 或 Apple M1/M2/M3(统一内存) 存储:50GB SSD可用空间 推荐配置(跑13B-70B模型) 1 2 3 4 5 CPU:12核以上 内存:32GB+ 显卡:24GB显存(如RTX 4090) 或 Apple M2 Pro/Max/Ultra 存储:200GB SSD可用空间 显存 vs 模型大小速查表 模型大小 最低显存 推荐显存 代表模型 3B 4GB 6GB Phi-3 Mini 7B 6GB 8GB Llama 3.1 7B, Qwen2.5 7B 13B 10GB 16GB Llama 3.1 13B 34B 20GB 24GB CodeLlama 34B 70B 40GB 48GB Llama 3.1 70B 注:使用量化(Q4/Q5)可降低约50%显存需求。 ...