跳到主要内容

微调与训练知识体系概览

问题

什么是模型微调？微调的核心知识体系包含哪些内容？

答案

微调（Fine-tuning） 是在预训练模型基础上，使用特定领域数据进一步训练，使模型适应具体任务或风格。

一、为什么需要微调

方式	能力	适用场景
Prompt 工程	引导模型行为	快速迭代、通用任务
RAG	注入外部知识	知识库问答
微调	改变模型能力/风格	特定领域、格式固化、性能极致

何时选择微调

Prompt 工程搞不定（格式不稳定、效果不够好）、RAG 不适用（不是知识问题而是能力问题），才考虑微调。

二、微调技术全景

三、知识导航

模块	核心内容	文档
SFT	监督微调基础	SFT 监督微调
LoRA/QLoRA	参数高效微调	LoRA 与 QLoRA
RLHF/DPO	人类偏好对齐	RLHF 与 DPO
数据集构建	数据质量与格式	训练数据集构建
训练实践	框架、超参、技巧	微调实践指南
评估	微调效果评估	微调评估
蒸馏	模型蒸馏技术	知识蒸馏

四、微调方式对比

方式	训练参数量	GPU 需求	效果	适用场景
全量微调	100%	极高	最好	大公司、充足算力
LoRA	~1%	中	接近全量	最常用
QLoRA	~1%（量化基模型）	低	略低于 LoRA	消费级 GPU
Adapter	`<1%`	低	中等	多任务切换
Prompt Tuning	`<0.1%`	极低	一般	简单分类

五、学习路径

相关链接

问题
答案
相关链接