主流模型对比
问题
当前主流 LLM 有哪些?各自的特点和适用场景是什么?开源和闭源模型如何选择?
答案
一、闭源模型
| 模型 | 公司 | 参数规模 | 上下文 | 特点 |
|---|---|---|---|---|
| GPT-4o | OpenAI | 未公开 | 128K | 多模态、速度快、性价比高 |
| GPT-4.1 | OpenAI | 未公开 | 1M | 超长上下文、指令跟随强 |
| o3 | OpenAI | 未公开 | 200K | 推理能力极强、数学/代码顶尖 |
| Claude 4 Opus | Anthropic | 未公开 | 200K | 长文本理解、编程、安全性 |
| Claude 4 Sonnet | Anthropic | 未公开 | 200K | 高性价比、MCP 协议 |
| Gemini 2.5 Pro | 未公开 | 1M | 超长上下文、多模态、代码 | |
| Grok 3 | xAI | 未公开 | 128K | 实时信息、DeepSearch |
二、开源模型
| 模型 | 公司 | 参数规模 | 上下文 | 特点 |
|---|---|---|---|---|
| LLaMA 3.1 | Meta | 8B/70B/405B | 128K | 开源标杆、生态完善 |
| DeepSeek V3 | DeepSeek | 671B (MoE, 37B 激活) | 128K | MoE、超高性价比 |
| DeepSeek R1 | DeepSeek | 671B (MoE) | 128K | 开源推理模型、CoT |
| Qwen 3 | 阿里 | 0.6B~235B | 128K | 中文最强、多尺寸 |
| Mistral Large | Mistral | 123B | 128K | 欧洲开源、高效 |
| Gemma 3 | 1B/4B/12B/27B | 128K | 轻量级、移动端 |
三、模型选型维度
四、按场景推荐
| 场景 | 推荐模型 | 理由 |
|---|---|---|
| 日常对话 | GPT-4o / Claude Sonnet | 平衡质量和速度 |
| 编程辅助 | Claude Opus / Cursor | 代码理解和生成最强 |
| 数学推理 | o3 / DeepSeek R1 | 深度推理能力 |
| 长文档分析 | Gemini 2.5 Pro / GPT-4.1 | 1M Token 上下文 |
| 中文场景 | Qwen 3 / DeepSeek V3 | 中文能力最强 |
| 本地部署 | LLaMA 3 8B / Qwen 3 7B | 性价比高、生态好 |
| RAG 应用 | 嵌入:text-embedding-3 / bge | 不同环节用不同模型 |
| 低成本高吞吐 | GPT-4o mini / Haiku | API 成本最低 |
五、模型架构对比
| 特性 | GPT-4 | LLaMA 3 | DeepSeek V3 |
|---|---|---|---|
| 架构 | 传闻 MoE | 稠密 Transformer | MoE |
| 归一化 | LayerNorm | RMSNorm | RMSNorm |
| 激活函数 | -- | SwiGLU | SwiGLU |
| 位置编码 | -- | RoPE (ABF) | RoPE + YaRN |
| 注意力 | MHA(传闻) | GQA | MLA(多头潜在注意力) |
| 训练方法 | SFT + RLHF | SFT + DPO | SFT + GRPO |
MoE vs 稠密
- 稠密模型(LLaMA):所有参数对每个 Token 都参与计算
- MoE 模型(DeepSeek V3):每个 Token 只激活部分专家(37B/671B),推理成本低但总参数大
- MoE 的优势在于用更低的推理成本获得更高的模型容量
六、API 定价(2025 年参考)
| 模型 | 输入($/M tokens) | 输出($/M tokens) |
|---|---|---|
| GPT-4o | $2.50 | $10.00 |
| GPT-4o mini | $0.15 | $0.60 |
| Claude Sonnet | $3.00 | $15.00 |
| Claude Haiku | $0.25 | $1.25 |
| Gemini 2.5 Pro | $1.25 | $10.00 |
| DeepSeek V3 | $0.27 | $1.10 |
常见面试问题
Q1: 如何选择 LLM?
答案: 核心考虑因素:
- 任务类型:推理(o3/R1)、编程(Claude)、对话(GPT-4o)
- 部署方式:云 API(闭源 OK)、私有部署(必须开源)
- 成本预算:高预算用 GPT-4,低预算用 mini/haiku
- 延迟要求:实时用小模型,离线可用大模型
- 数据合规:敏感数据可能需要本地部署
Q2: 开源模型和闭源模型的差距在哪?
答案: 2025 年差距已大幅缩小:
- 编码/推理:DeepSeek R1 接近 o1、Claude 水平
- 通用对话:LLaMA 405B 接近 GPT-4 水平
- 差距仍在:多模态(Gemini 领先)、极端推理(o3 领先)、安全对齐(Claude 领先)
- 开源优势:可微调、可私有部署、成本可控、完全掌控
Q3: DeepSeek V3 的 MoE 架构有什么特点?
答案:
- MLA(Multi-Head Latent Attention):用低秩投影压缩 KV Cache,比 GQA 更激进
- 专家选择:671B 总参数,每 Token 只激活 37B(8 个专家中选 2 个)
- 辅助 Loss Free:用偏置项代替辅助损失做专家负载均衡
- 效果:推理成本接近 70B 稠密模型,但性能接近 400B+