TRPO证明过程回顾
总结
其实就是surrogateη(πnew)\eta(\pi_{new})η(πnew)相比πold\pi_{old}πold能算出一个明确的下届来
公众号对推导过程的总结
来自 https://mp.weixin.qq.com/s/ew9z0siBhCZyaDRe_1VVcQ
其实就是surrogateη(πnew)\eta(\pi_{new})η(πnew)相比πold\pi_{old}πold能算出一个明确的下届来
来自 https://mp.weixin.qq.com/s/ew9z0siBhCZyaDRe_1VVcQ