大模型

去年我们一个内部项目,用 Claude Opus 跑一个意图分类:输入一句用户的话,输出三个标签之一。上线两周,有人去看账单,愣住了——这个分类任务,一个 14B 的开源模型在自己的卡上跑,效果差不了几个点,成本是它的几十分之一。这就是 2026 年选型最常见的错误:把"哪个模型最强"当成了"我该用哪个模型"。这两个问题根本不是一回事。GPQA、SWE-bench、ARC-AGI-2 这些榜单告诉你的是天花板,而你大部分的线上请求,离天花板远着呢。一个分类、一段摘要、一次格式化抽取——这些活儿,旗舰模型是高射炮打蚊子。选型不是选最强,是给每一类任务配一个"刚好够用、且最便宜"的模型。这篇不排名。给你一套按场景拆的决策框架。先认清:2026 年的模型是分梯队的 2026 年 5 月,前沿模型大概是这么个格局——记住具体版本号意义不大,它们每两三个月就跳一次,记住梯队就行: 梯队代表模型(2026.05) 典型 API 价格(输入/输出,每百万 token) 该干什么旗舰 GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro $5 / $25 量级复杂推理、Agent 编排、难代码主力 Claude Sonnet 4.6、Gemini 3 Flash、DeepSeek V4-Pro $1–3 / $3–15 量级绝大多数生产任务快而省 Claude Haiku 4.5、Gemini 3 Flash-Lite、DeepSeek V4-Flash $0.1–1 / $0.3–5 量级分类、抽取、路由、简单问答这张表里藏着一个关键事实:旗舰和"快而省"之间,输出价格差了几十倍。 DeepSeek V4-Flash 的输出大约 $0.28,GPT-5.5 是 $30——一百多倍。这个差距不是边角料,它会直接决定你的产品能不能规模化。而梯队之间的能力差距,这两年反而在缩小。2024 年你能明显感觉到旗舰和主力不是一个物种;2026 年,在很多具体任务上,主力模型只比旗舰差几个百分点,有时候你压根测不出来。能力在收敛,价格还拉得很开——这就是"按梯队选型"能省钱的根本原因。 ...

为什么要本地部署？在云端API满天飞的2025年，为什么还要本地部署大模型？理由1：隐私安全你的代码、文档、聊天记录……全都发给了云端。 1 2 3 4 敏感场景： - 公司内部代码 → 发给OpenAI？ - 医疗病历数据 → 发给云端？ - 法律合同文本 → 谁来保证不泄露？本地部署 = 数据永远不出你的电脑。理由2：成本控制使用场景云端API成本本地部署成本每天1万次调用 ~$300/月电费 ~$30/月 7B模型长期使用持续付费一次性硬件投入团队10人使用 $200+/人/月共享一台服务器理由3：低延迟云端API：网络往返 100-500ms 本地部署：几乎零延迟理由4：自由定制想微调？随便调想改提示词模板？自己改想限制输出长度？随心所欲硬件要求最低配置（跑7B模型） 1 2 3 4 5 CPU：8核以上内存：16GB 显卡：8GB显存（如RTX 3070）或 Apple M1/M2/M3（统一内存）存储：50GB SSD可用空间推荐配置（跑13B-70B模型） 1 2 3 4 5 CPU：12核以上内存：32GB+ 显卡：24GB显存（如RTX 4090）或 Apple M2 Pro/Max/Ultra 存储：200GB SSD可用空间显存 vs 模型大小速查表模型大小最低显存推荐显存代表模型 3B 4GB 6GB Phi-3 Mini 7B 6GB 8GB Llama 3.1 7B, Qwen2.5 7B 13B 10GB 16GB Llama 3.1 13B 34B 20GB 24GB CodeLlama 34B 70B 40GB 48GB Llama 3.1 70B 注：使用量化（Q4/Q5）可降低约50%显存需求。 ...

2026 大模型选型:别问「哪个最强」,问「哪个够用」

本地部署大模型完全指南：Ollama + vLLM + LMStudio 实战