TD3网络训练问题

1、原论文中，TD3的探索机制，是在actor输出的action上加一个方差恒定的高斯噪声，进行探索。这样的探索是不是相对不稳定？是否需要随着训练的进行，逐渐减小探索噪声的方差？
2、TD3这种连续网络训练效果不太好，23点多的最优值，只能达到20点多，这种应该从什么方向出发去调？

Document