人类建模偏好角度理解DPO