DPO公式推导
DPO公式推导全解析
元数据
- 分类:强化学习理论推导
- 标签:DPO, 公式推导, Bradley-Terry模型, KL散度, 策略优化
- 日期:2025年4月22日
核心目标函数推导
1. 原始约束目标
从行为约束的强化学习目标出发:
其中:
:奖励函数 :约束强度系数 :KL散度(衡量策略 与参考策略 的偏离程度)
2. 目标函数变形
步骤1:展开KL散度
变形后目标:
步骤2:转换为最小化问题
将最大化问题转换为最小化(乘
3. 引入配分函数
关键操作:构造指数形式
将目标表达式重写为:
其中:
4. 定义最优策略
令:
合法性验证:
5. KL散度最小化
目标函数简化为:
最优解直接为:
6. 奖励函数反推
从
7. 偏好概率模型
代入Bradley-Terry模型:
简化后(利用
⚠ 常见错误警示
-
配分函数计算遗漏
→ 必须对所有可能的求和,否则会导致概率分布不合法。 -
系数误用
→ 在指数项和KL散度项中需严格区分的位置。
💡 创新点解析
- 模型简化:通过消去
,将依赖奖励函数的问题转化为直接优化策略比对问题。 - 端到端训练:仅需偏好数据即可训练,无需单独建模奖励函数(Reward Model)和评价函数(Critic)。
原始推导参考:用户提供的技术文档(DPO推导章节)