DPO公式推导

DPO公式推导全解析

元数据

分类：强化学习理论推导
标签：DPO, 公式推导, Bradley-Terry模型, KL散度, 策略优化
日期：2025年4月22日

核心目标函数推导

1. 原始约束目标

从行为约束的强化学习目标出发：

max_{π} E_{x \sim D, y \sim π} [r (x, y)] - β D_{KL} [π (y | x) ∥ π_{ref} (y | x)]

其中：

$r (x, y)$ ：奖励函数
$β$ ：约束强度系数
$D_{KL}$ ：KL散度（衡量策略 $π$ 与参考策略 $π_{ref}$ 的偏离程度）

2. 目标函数变形

步骤1：展开KL散度

D_{KL} = E_{y \sim π (y | x)} [\log \frac{π (y | x)}{π_{ref} (y | x)}]

变形后目标：

max_{π} E_{x \sim D} [E_{y \sim π (y | x)} [r (x, y) - β \log \frac{π (y | x)}{π_{ref} (y | x)}]]

步骤2：转换为最小化问题

将最大化问题转换为最小化（乘 $- 1$ ）：

min_{π} E_{x \sim D} [E_{y \sim π (y | x)} [\log \frac{π (y | x)}{π_{ref} (y | x)} - \frac{1}{β} r (x, y)]]

3. 引入配分函数 $Z (x)$

关键操作：构造指数形式

将目标表达式重写为：

min_{π} E_{x \sim D} [E_{y \sim π (y | x)} [\log \frac{π (y | x)}{\frac{1}{Z (x)} π_{ref} (y | x) \exp (\frac{1}{β} r (x, y))} - \log Z (x)]]

其中：

Z (x) = \sum_{y} π_{ref} (y | x) \exp (\frac{1}{β} r (x, y))

4. 定义最优策略 $π^{*}$

令：

π^{*} (y | x) = \frac{1}{Z (x)} π_{ref} (y | x) \exp (\frac{1}{β} r (x, y))

合法性验证：

\sum_{y} π^{*} (y | x) = \frac{1}{Z (x)} \sum_{y} π_{ref} (y | x) \exp (\frac{1}{β} r (x, y)) = 1

5. KL散度最小化

目标函数简化为：

min_{π} E_{x \sim D} [D_{KL} (π (y | x) ∥ π^{*} (y | x)) - \log Z (x)]

最优解直接为：

π (y | x) = π^{*} (y | x)

6. 奖励函数反推

从 $π^{*}$ 表达式解出 $r (x, y)$ ：

r^{*} (x, y) = β \log \frac{π^{*} (y | x)}{π_{ref} (y | x)} + β \log Z (x)

7. 偏好概率模型

代入Bradley-Terry模型：

p_{β}^{*} (y_{1} ≻ y_{2} | x) = \frac{\exp (β \log \frac{π_{ref} (y_{1} | x)}{π^{*} (y_{1} | x)} + β \log Z (x))}{\exp (\cdot) + \exp (\cdot)}

简化后（利用 $Z (x)$ 抵消）：

p_{β}^{*} = σ (β \log \frac{π_{ref} (y_{1} | x)}{π^{*} (y_{1} | x)} - β \log \frac{π_{ref} (y_{2} | x)}{π^{*} (y_{2} | x)})

⚠ 常见错误警示

配分函数计算遗漏
→ 必须对所有可能的 $y$ 求和，否则会导致概率分布不合法。
$β$ 系数误用
→ 在指数项和KL散度项中需严格区分 $β$ 的位置。

💡 创新点解析

模型简化：通过消去 $Z (x)$ ，将依赖奖励函数的问题转化为直接优化策略比对问题。
端到端训练：仅需偏好数据即可训练，无需单独建模奖励函数（Reward Model）和评价函数（Critic）。

原始推导参考：用户提供的技术文档（DPO推导章节）

DPO公式推导全解析

元数据

核心目标函数推导

1. 原始约束目标

2. 目标函数变形

步骤1：展开KL散度

步骤2：转换为最小化问题

3. 引入配分函数 Z(x)

关键操作：构造指数形式

4. 定义最优策略 π∗

5. KL散度最小化

6. 奖励函数反推

7. 偏好概率模型

⚠ 常见错误警示

💡 创新点解析

3. 引入配分函数 $Z (x)$

4. 定义最优策略 $π^{*}$