开源大模型 2026:DeepSeek、Qwen、Llama 的格局

去年这个时候,如果你跟人说"我们生产环境跑开源模型",对方多半会礼貌地点点头,心里默认你是预算不够。开源模型当时的人设就是"省钱的次选"。 2026 年 4 月 24 日,DeepSeek 把 V4-Pro 的权重直接挂上了 Hugging Face,1.6 万亿参数,MIT 许可证,1M 上下文。它在编程基准上的得分,跟当月最强的几个闭源旗舰之间,差的不是一个段位,是几个百分点。 这件事的信号比"又一个新模型"大得多。它意味着:当你今天选开源,你放弃的不再是能力,而是别的东西。 这篇就来复盘开放权重这一年的格局——谁在领跑、中国开源为什么这么猛、剩下的那点差距到底在哪、许可证这个没人爱看的细节怎么反而成了关键,以及开源那套微调量化部署的生态,现在到底成不成熟。 需要先说清一个词。这篇说的"开源",严格讲是开放权重(open weights):权重能下载、能自己跑、能商用。它和教科书意义上的开源软件不是一回事——绝大多数模型不公开训练数据、不公开训练代码,你拿到的是一个能跑的成品,不是一份能复现的菜谱。后面我还是用"开源"这个习惯叫法,但你心里得清楚,这是个有水分的词。 领跑的三家,其实是三种活法 把 2026 年 5 月的开放权重阵营摊开看,DeepSeek、Qwen、Llama 这三个名字最响,但他们根本不在同一条赛道上。 模型家族 代表版本(2026.05) 架构 / 规模 许可证 它在赌什么 DeepSeek V4-Pro / V4-Flash MoE,1.6T 总参 / 49B 激活;Flash 284B/13B MIT 用前沿能力 + 极宽松许可证,直接当闭源旗舰的平替 Qwen Qwen 3.6 系列,六档尺寸 + 3.6-VL Dense 与 MoE 混编,从手机到集群 Apache 2.0(开放档) 用"全尺寸覆盖 + 最强多语言"做开发者默认底座 Llama Llama 4 Scout / Maverick MoE,17B 激活(16 / 128 experts) Llama 4 社区许可(有条件) 守住最大的部署装机量和生态惯性 Mistral Large 3、Small 4 Large 3:675B/41B;Small 4:119B/6B Apache 2.0 欧洲牌照 + 干净许可证,做合规友好的那一个 这张表里我最想让你看的是最后一列。三家头部各自押的东西完全不同:DeepSeek 押"能力对标 + 许可证无摩擦",Qwen 押"尺寸谱系最全",Llama 押"我已经在几十亿设备和无数教程里了"。 ...

2026-05-04 · 2 min · Chico