大语言模型知识体系概览

问题

大语言模型（LLM）的核心概念是什么？从预训练到部署的完整链路是怎样的？

答案

大语言模型（Large Language Model, LLM） 是基于 Transformer Decoder-only 架构、通过海量文本预训练获得强大语言能力的模型。它是当前 AI 应用的核心引擎。

一、LLM 全景图

二、核心知识点导航

知识领域	核心问题	文档链接
GPT 架构	Decoder-only 结构、参数量、各组件作用	GPT 架构详解
Tokenization	BPE、SentencePiece、词表大小影响	分词与 Tokenization
注意力在 LLM 中	KV Cache、GQA、长上下文	LLM 中的注意力机制
Scaling Law	规模定律、Chinchilla 最优比例	Scaling Law
涌现能力	涌现、思维链、上下文学习	涌现能力
预训练	数据、训练目标、分布式训练	预训练详解
对齐	SFT、RLHF、DPO	人类对齐
推理优化	量化、KV Cache、投机采样	推理优化
模型对比	GPT/Claude/LLaMA/Gemini/Qwen	主流模型对比
上下文窗口	长上下文、RoPE 外推、RAG 限制	上下文窗口
多模态	Vision-Language、语音、视频	多模态大模型
推理模型	o1/o3、DeepSeek-R1、推理扩展	推理模型

三、关键概念速览

Token 与词表

LLM 不直接处理文字，而是处理 Token——文本的最小处理单元。一个中文字通常是 1-2 个 Token，英文单词通常是 1-3 个 Token。

自回归生成

LLM 的生成方式：逐 Token 预测，每次只生成一个 Token，将其拼接到输入后继续生成下一个。

Temperature

生成时的"温度"参数——控制随机性：

$T = 0$ ：确定性输出（贪心），总是选概率最高的 Token
$T = 0.7$ ：适度随机，平衡创造性和准确性
$T = 1.5+$ ：高度随机，可能产生不连贯内容

四、LLM 发展时间线

时间	里程碑	意义
2018.06	GPT-1（1.17 亿参数）	验证预训练+微调范式
2019.02	GPT-2（15 亿）	证明规模提升带来质变
2020.06	GPT-3（1750 亿）	Few-shot 涌现
2022.03	Chinchilla	修正 Scaling Law
2022.11	ChatGPT	AI 应用爆发点
2023.02	LLaMA	开源 LLM 元年
2023.03	GPT-4	多模态、推理能力飞跃
2024.01	DeepSeek V2/V3	MoE 架构、成本革命
2024.09	o1	推理时计算扩展
2025.01	DeepSeek-R1	开源推理模型

大语言模型知识体系概览

问题

答案

一、LLM 全景图

二、核心知识点导航

三、关键概念速览

Token 与词表

自回归生成

Temperature

四、LLM 发展时间线

五、学习路径建议

相关链接

问题​

答案​

一、LLM 全景图​

二、核心知识点导航​

三、关键概念速览​

Token 与词表​

自回归生成​

Temperature​

四、LLM 发展时间线​

五、学习路径建议​

相关链接​

问题

答案

一、LLM 全景图

二、核心知识点导航

三、关键概念速览

Token 与词表

自回归生成

Temperature

四、LLM 发展时间线

五、学习路径建议

相关链接