DeepSeek

先说结论需求推荐理由写代码/工程任务 Claude 3.5 Sonnet SWE-bench 64%，编程能力最强数学/推理 DeepSeek V3 数学benchmark接近Claude，价格便宜30倍搜索/调研 Gemini 100万token上下文+实时搜索通用/日常 GPT-4o 综合体验最稳四大模型一览 graph LR subgraph "闭源商业" A[GPT-4o] --- B[Claude 3.5] B --- C[Gemini] end subgraph "开源" D[DeepSeek V3] end style A fill:#74aa9c style B fill:#d4a574 style C fill:#4285f4 style D fill:#ff6b6b GPT-4o：综合最稳发布：2024年5月（OpenAI）强项：综合能力均衡，没有明显短板多模态（看图、听声音）响应速度快 Benchmark数据： MMLU：85%+ 众包对比胜率：65% 价格：$2.5/百万输入token，$10/百万输出token 适合：日常对话、通用任务、不知道选什么就选它 Claude 3.5 Sonnet：程序员首选发布：2024年6月（Anthropic）强项：编程能力最强，SWE-bench 64% 视觉推理强（MathVista 67.7%，超过GPT-4o的63.8%）理解复杂指令能力强 Benchmark数据： ...