跳到主要内容

对齐技术

问题

什么是 AI 对齐(Alignment)?主要的对齐方法有哪些?

答案

一、对齐的定义

AI 对齐指让模型的行为符合人类意图和价值观。具体目标(3H 原则):

原则英文含义
有帮助的Helpful尽力帮助用户完成任务
无危害的Harmless不产生有害、违法、偏见内容
诚实的Honest不编造信息,承认不确定性

二、对齐方法演进

三、核心对齐方法

RLHF(Reinforcement Learning from Human Feedback)

1. 收集人类偏好数据:(prompt, good_response, bad_response)
2. 训练奖励模型 RM:学习人类偏好评分
3. 用 PPO 算法优化 LLM:最大化奖励模型评分

DPO(Direct Preference Optimization)

DPO 跳过奖励模型训练,直接用偏好数据优化:

对比RLHFDPO
需要奖励模型
训练稳定性较差(PPO 不稳定)更稳定
实现复杂度
效果更灵活接近 RLHF

Constitutional AI(Anthropic)

模型自我评估和修正:

  1. 定义一组原则(宪法),如"不提供危险信息"
  2. 模型生成回答后,用原则自我批评
  3. 根据批评修改回答
  4. 用修改后的数据进行 RLHF

四、实践中的对齐

现代对齐流程
  1. SFT:用高质量对话数据微调基座模型
  2. DPO/RLHF:用偏好数据优化模型行为
  3. 安全微调:用安全相关数据加强拒绝能力
  4. 红队测试:人工攻击测试发现漏洞
  5. 持续迭代:根据线上反馈持续改进

常见面试问题

Q1: RLHF 和 DPO 怎么选?

答案

  • DPO 是当前主流选择:实现简单、训练稳定、效果接近 RLHF
  • RLHF 在需要更精细控制奖励信号时仍有优势
  • 开源社区(如 Llama 3)主要使用 DPO

Q2: 对齐后的模型为什么还会被"越狱"?

答案

  • 对齐是概率性的,不是绝对安全的
  • 攻击者可以通过精心构造的 Prompt 绕过安全限制
  • 对齐训练主要在已知攻击模式上有效,难以覆盖所有变体
  • 因此需要多层防御:对齐 + 输入过滤 + 输出审核

相关链接