深度学习知识体系概览
什么是深度学习?
深度学习(Deep Learning) 是机器学习的一个分支,使用多层神经网络自动从原始数据中学习层次化的特征表示。"深度"指的是网络的层数——越深的网络能学到越抽象的特征。
与传统 ML 的核心区别
传统 ML 需要人工提取特征(如从图像中提取 HOG 特征),再交给模型学习。深度学习端到端(End-to-End) 学习——直接输入原始数据,自动学习从底层到高层的特征表示。这是它能在图像、语音、文本等领域碾压传统方法的根本原因。
为什么深度学习如此重要?
深度学习的成功依赖三个要素的同时成熟:
| 要素 | 说明 |
|---|---|
| 大数据 | ImageNet(1400 万图片)、Common Crawl(万亿 Token 文本) |
| 算力 | GPU(NVIDIA CUDA)、TPU、分布式训练 |
| 算法突破 | ReLU 激活、Batch Normalization、残差连接、Transformer |
核心知识点
神经网络——万能函数逼近器
神经网络由输入层→隐藏层→输出层组成。万能逼近定理证明:一个足够宽的单隐藏层网络可以逼近任何连续函数。但实践中,深层窄网络比浅层宽网络更高效。
反向传播——让网络"学习"的算法
反向传播(Backpropagation)利用链式法则,从输出层到输入层逐层计算损失对每个参数的梯度。这是所有基于梯度的深度学习训练的基石。
主流架构演进
| 架构 | 擅长领域 | 核心创新 |
|---|---|---|
| CNN | 图像、视频 | 卷积核提取局部特征、权重共享 |
| RNN/LSTM | 序列数据 | 循环连接处理时间序列 |
| Transformer | 文本、多模态 | 自注意力机制,并行计算 |
| GAN | 图像生成 | 生成器 vs 判别器对抗训练 |
| Diffusion | 图像/视频生成 | 逐步去噪生成 |
训练技巧
深度网络的训练需要大量技巧来保证收敛和泛化:
| 技巧 | 作用 |
|---|---|
| Batch Normalization | 稳定训练,加速收敛 |
| Dropout | 正则化,防止过拟合 |
| 残差连接 | 解决深层网络退化问题 |
| 学习率调度 | Warmup + 余弦退火 |
| 权重初始化 | He/Xavier 初始化 |
| 混合精度训练 | FP16 训练,加速 + 省显存 |
| 梯度裁剪 | 防止梯度爆炸 |
知识体系导航
| 主题 | 核心内容 | 面试重要度 |
|---|---|---|
| 神经网络基础 | 感知机、多层网络、前向传播、权重初始化 | ⭐⭐⭐⭐⭐ |
| 反向传播与梯度下降 | 链式法则、SGD/Adam、学习率调度 | ⭐⭐⭐⭐⭐ |
| 激活函数 | Sigmoid/ReLU/GELU/Swish、梯度消失 | ⭐⭐⭐⭐ |
| CNN 卷积神经网络 | 卷积/池化、ResNet、图像分类 | ⭐⭐⭐⭐ |
| RNN 与 LSTM | 循环网络、长短期记忆、GRU | ⭐⭐⭐ |
| Transformer 架构 | Self-Attention、多头注意力、位置编码 | ⭐⭐⭐⭐⭐ |
| 注意力机制详解 | Scaled Dot-Product、Flash Attention | ⭐⭐⭐⭐⭐ |
| 训练技巧与策略 | BatchNorm、Dropout、混合精度 | ⭐⭐⭐⭐ |
| 损失函数 | 交叉熵、MSE、对比损失 | ⭐⭐⭐⭐ |
学习路径
推荐顺序:先打好神经网络和反向传播基础 → 理解激活函数和训练技巧 → 重点学习 Transformer(后续 LLM 全靠它)→ CNN 和 RNN 按需了解。