请问:基于势能的奖励时每一个时间步都会给定的奖励,应该算作稠密奖励吧?所以利用势能得到的稠密奖励还是否可以利用HER提高训练效率和训练效果? 我感觉好像不能,我在看相关论文的时候HER是为了稀疏奖励设计的?