在RL中，如何让智能体不取边界值？ - 深度强化学习实验室

在RL中，如何让智能体不取边界值？

xiao-ma

假如我的动作空间是开区间（-1,1），假如我采用的是PPO算法，那我要怎么避免智能体取到边界值-1和1呢？常用的方法有哪些诶？

Obnay

像sac那样取个tanh？

Document