深度学习知识体系概览

什么是深度学习？

深度学习（Deep Learning） 是机器学习的一个分支，使用多层神经网络自动从原始数据中学习层次化的特征表示。"深度"指的是网络的层数——越深的网络能学到越抽象的特征。

与传统 ML 的核心区别

传统 ML 需要人工提取特征（如从图像中提取 HOG 特征），再交给模型学习。深度学习端到端（End-to-End） 学习——直接输入原始数据，自动学习从底层到高层的特征表示。这是它能在图像、语音、文本等领域碾压传统方法的根本原因。

深度学习的成功依赖三个要素的同时成熟：

要素	说明
大数据	ImageNet（1400 万图片）、Common Crawl（万亿 Token 文本）
算力	GPU（NVIDIA CUDA）、TPU、分布式训练
算法突破	ReLU 激活、Batch Normalization、残差连接、Transformer

神经网络由输入层→隐藏层→输出层组成。万能逼近定理证明：一个足够宽的单隐藏层网络可以逼近任何连续函数。但实践中，深层窄网络比浅层宽网络更高效。

反向传播（Backpropagation）利用链式法则，从输出层到输入层逐层计算损失对每个参数的梯度。这是所有基于梯度的深度学习训练的基石。

深度网络的训练需要大量技巧来保证收敛和泛化：

主题	核心内容	面试重要度
神经网络基础	感知机、多层网络、前向传播、权重初始化	⭐⭐⭐⭐⭐
反向传播与梯度下降	链式法则、SGD/Adam、学习率调度	⭐⭐⭐⭐⭐
激活函数	Sigmoid/ReLU/GELU/Swish、梯度消失	⭐⭐⭐⭐
CNN 卷积神经网络	卷积/池化、ResNet、图像分类	⭐⭐⭐⭐
RNN 与 LSTM	循环网络、长短期记忆、GRU	⭐⭐⭐
Transformer 架构	Self-Attention、多头注意力、位置编码	⭐⭐⭐⭐⭐
注意力机制详解	Scaled Dot-Product、Flash Attention	⭐⭐⭐⭐⭐
训练技巧与策略	BatchNorm、Dropout、混合精度	⭐⭐⭐⭐
损失函数	交叉熵、MSE、对比损失	⭐⭐⭐⭐

推荐顺序：先打好神经网络和反向传播基础 → 理解激活函数和训练技巧 → 重点学习 Transformer（后续 LLM 全靠它）→ CNN 和 RNN 按需了解。