当前位置：首页 > news >正文

trl 库, 大模型强化学习任务的公式和代码解析

news 2026/3/26 21:34:20

trl 库, 大模型强化学习任务的公式和代码解析

dpo公式.
https://huggingface.co/docs/trl/dpo_trainer
为什么两个概率相除