大模型---exploit and explore
目录
1.exploit and explore在深入学习中的应用
2.exploit and explore在LLM中的体现
这部分深入学习后会继续补充:
1.exploit and explore在深入学习中的应用
多臂老虎机与强化学习的核心概念就是exploit and explore,更规范的术语是exploration–exploitation trade-off,中文一般译成探索—利用权衡。它不是某个单独算法,而是一类在不确定条件下做决策的通用思想:一方面要利用当前最有把握、看起来最优的选择;另一方面又必须探索那些暂时不确定、但可能更优的选择。其中,Exploit(利用):选当前模型认为最好的动作、样本、策略或输出。Explore(探索):主动去试那些不确定、覆盖不足、但可能带来更高长期收益的信息源或候选。
对于多臂老虎机和强化学习可以看这篇博客:
多臂老虎机与强化学习
这个思想也被迁移到了深度学习中:
(1)主动学习
主动学习要解决的问题是,
