当前位置: 首页 > news >正文

trl 库, 大模型强化学习任务的公式和代码解析

trl 库, 大模型强化学习任务的公式和代码解析

  1. dpo公式.
    https://huggingface.co/docs/trl/dpo_trainer
    image
  2. 为什么两个概率相除
    image