大语言模型知识体系概览
问题
大语言模型(LLM)的核心概念是什么?从预训练到部署的完整链路是怎样的?
答案
大语言模型(Large Language Model, LLM) 是基于 Transformer Decoder-only 架构、通过海量文本预训练获得强大语言能力的模型。它是当前 AI 应用的核心引擎。
一、LLM 全景图
二、核心知识点导航
| 知识领域 | 核心问题 | 文档链接 |
|---|---|---|
| GPT 架构 | Decoder-only 结构、参数量、各组件作用 | GPT 架构详解 |
| Tokenization | BPE、SentencePiece、词表大小影响 | 分词与 Tokenization |
| 注意力在 LLM 中 | KV Cache、GQA、长上下文 | LLM 中的注意力机制 |
| Scaling Law | 规模定律、Chinchilla 最优比例 | Scaling Law |
| 涌现能力 | 涌现、思维链、上下文学习 | 涌现能力 |
| 预训练 | 数据、训练目标、分布式训练 | 预训练详解 |
| 对齐 | SFT、RLHF、DPO | 人类对齐 |
| 推理优化 | 量化、KV Cache、投机采样 | 推理优化 |
| 模型对比 | GPT/Claude/LLaMA/Gemini/Qwen | 主流模型对比 |
| 上下文窗口 | 长上下文、RoPE 外推、RAG 限制 | 上下文窗口 |
| 多模态 | Vision-Language、语音、视频 | 多模态大模型 |
| 推理模型 | o1/o3、DeepSeek-R1、推理扩展 | 推理模型 |
三、关键概念速览
Token 与词表
LLM 不直接处理文字,而是处理 Token——文本的最小处理单元。一个中文字通常是 1-2 个 Token,英文单词通常是 1-3 个 Token。
自回归生成
LLM 的生成方式:逐 Token 预测,每次只生成一个 Token,将其拼接到输入后继续生成下一个。
Temperature
生成时的"温度"参数——控制随机性:
- :确定性输出(贪心),总是选概率最高的 Token
- :适度随机,平衡创造性和准确性
- :高度随机,可能产生不连贯内容
四、LLM 发展时间线
| 时间 | 里程碑 | 意义 |
|---|---|---|
| 2018.06 | GPT-1(1.17 亿参数) | 验证预训练+微调范式 |
| 2019.02 | GPT-2(15 亿) | 证明规模提升带来质变 |
| 2020.06 | GPT-3(1750 亿) | Few-shot 涌现 |
| 2022.03 | Chinchilla | 修正 Scaling Law |
| 2022.11 | ChatGPT | AI 应用爆发点 |
| 2023.02 | LLaMA | 开源 LLM 元年 |
| 2023.03 | GPT-4 | 多模态、推理能力飞跃 |
| 2024.01 | DeepSeek V2/V3 | MoE 架构、成本革命 |
| 2024.09 | o1 | 推理时计算扩展 |
| 2025.01 | DeepSeek-R1 | 开源推理模型 |