在强化学习中，如果动作空间的上界一直在变(动作间有耦合)，应该怎么实现？ - 深度强化学习实验室

在强化学习中，如果动作空间的上界一直在变(动作间有耦合)，应该怎么实现？

xiao-ma

比如，有一个2维动作a，a[0]的取值范围是区间[0,1]，而a[1]的取值范围是区间[0,x]，其中x的大小与a[0]相关，基本关系是a[0]越小x越大。

又或者这样是不可行的？

FeiY

xiao-ma 设计不通的clip[min,max]函数，取 $\frac{1}{a[0]}==[\min, \max]$

xiao-hua-sheng

动作空间本身就大于实际的取值范围，只需要在训练时限制取值的范围。

Document