微调与训练知识体系概览
问题
什么是模型微调?微调的核心知识体系包含哪些内容?
答案
微调(Fine-tuning) 是在预训练模型基础上,使用特定领域数据进一步训练,使模型适应具体任务或风格。
一、为什么需要微调
| 方式 | 能力 | 适用场景 |
|---|---|---|
| Prompt 工程 | 引导模型行为 | 快速迭代、通用任务 |
| RAG | 注入外部知识 | 知识库问答 |
| 微调 | 改变模型能力/风格 | 特定领域、格式固化、性能极致 |
何时选择微调
Prompt 工程搞不定(格式不稳定、效果不够好)、RAG 不适用(不是知识问题而是能力问题),才考虑微调。
二、微调技术全景
三、知识导航
| 模块 | 核心内容 | 文档 |
|---|---|---|
| SFT | 监督微调基础 | SFT 监督微调 |
| LoRA/QLoRA | 参数高效微调 | LoRA 与 QLoRA |
| RLHF/DPO | 人类偏好对齐 | RLHF 与 DPO |
| 数据集构建 | 数据质量与格式 | 训练数据集构建 |
| 训练实践 | 框架、超参、技巧 | 微调实践指南 |
| 评估 | 微调效果评估 | 微调评估 |
| 蒸馏 | 模型蒸馏技术 | 知识蒸馏 |
四、微调方式对比
| 方式 | 训练参数量 | GPU 需求 | 效果 | 适用场景 |
|---|---|---|---|---|
| 全量微调 | 100% | 极高 | 最好 | 大公司、充足算力 |
| LoRA | ~1% | 中 | 接近全量 | 最常用 |
| QLoRA | ~1%(量化基模型) | 低 | 略低于 LoRA | 消费级 GPU |
| Adapter | <1% | 低 | 中等 | 多任务切换 |
| Prompt Tuning | <0.1% | 极低 | 一般 | 简单分类 |