点到点找一条做功最少的路径的奖励函数应该如何设计

在表中，智能体需要从起点走到终点，每走到一个格子都会获得一个分数（阻力），agent的任务是在走到终点的情况下找到一条路径使阻力之和最小；请问在stable-baselines3中奖励函数应该如何设计。

阻力每步给负数奖励终点给一个较大的正奖励

Document