跳到主要内容

微调与训练知识体系概览

问题

什么是模型微调?微调的核心知识体系包含哪些内容?

答案

微调(Fine-tuning) 是在预训练模型基础上,使用特定领域数据进一步训练,使模型适应具体任务或风格。

一、为什么需要微调

方式能力适用场景
Prompt 工程引导模型行为快速迭代、通用任务
RAG注入外部知识知识库问答
微调改变模型能力/风格特定领域、格式固化、性能极致
何时选择微调

Prompt 工程搞不定(格式不稳定、效果不够好)、RAG 不适用(不是知识问题而是能力问题),才考虑微调。

二、微调技术全景

三、知识导航

模块核心内容文档
SFT监督微调基础SFT 监督微调
LoRA/QLoRA参数高效微调LoRA 与 QLoRA
RLHF/DPO人类偏好对齐RLHF 与 DPO
数据集构建数据质量与格式训练数据集构建
训练实践框架、超参、技巧微调实践指南
评估微调效果评估微调评估
蒸馏模型蒸馏技术知识蒸馏

四、微调方式对比

方式训练参数量GPU 需求效果适用场景
全量微调100%极高最好大公司、充足算力
LoRA~1%接近全量最常用
QLoRA~1%(量化基模型)略低于 LoRA消费级 GPU
Adapter<1%中等多任务切换
Prompt Tuning<0.1%极低一般简单分类

五、学习路径


相关链接