比如,有一个2维动作a,a[0]的取值范围是区间[0,1],而a[1]的取值范围是区间[0,x],其中x的大小与a[0]相关,基本关系是a[0]越小x越大。
又或者这样是不可行的?
xiao-ma 设计不通的clip[min,max]函数,取 $\frac{1}{a[0]}==[\min, \max]$
动作空间本身就大于实际的取值范围,只需要在训练时限制取值的范围。