TRPO优化问题

TRPO文章中描述先前的工作通过使用旧策略的状态访问频率代替新策略的状态访问频率，其本质是一阶近似。也就是说通过一阶展开找到原目标函数的上限。为了使得策略相差不大，使用mixture策略进行策略更新，

该mixture策略提升的下限为，

不等式最右边部分指的是基于原策略采样，应用mixture策略的回报上限吗？

然后，作者使用TV散度，TV散度和KL散度的关系进行推导得到如下公式

在算法迭代过程中，如下所示

策略 $\pi_{i}$ 的回报是递减的，如上公式所示。这里我很不明白为什么递减。按照我的理解，进行策略迭代是找到策略 $\pi$ 能够提高原目标函数值。不应该是递增的吗。

我感觉应该是这篇文章写错了，monotonically improvement 在TRPO的论文中确实说的是递增的，我不太清楚你公式的来源，但为了解决你的疑惑我建议看一下这篇TRPO论文：https://arxiv.org/pdf/1502.05477.pdf

Document