在表中,智能体需要从起点走到终点,每走到一个格子都会获得一个分数(阻力),agent的任务是在走到终点的情况下找到一条路径使阻力之和最小;请问在stable-baselines3中奖励函数应该如何设计。
阻力每步给负数奖励 终点给一个较大的正奖励