请问如何评价一个奖励函数设计的好坏呢？

SheaGu-SEU

目前我在做一个单路口交通信号灯控制的项目，目标是通过调整各方向绿灯的长度来解决交通拥堵。我现在用的评价指标是路口的总排队车辆数，奖励函数选了不少但效果都不好，甚至出现排队车辆增加而奖励也增加的情况。我想从分析每一步获得的奖励函数和当时的排队车辆数的关系来判断奖励函数的好坏，即，他们应该是明显的负相关关系，因此直接把奖励设成总排队车辆数的相反数似乎就是一个好的方案，但它的实际训练结果并不好。

现在的问题是，这种评价方式（只考虑负相关）是否合理呢？我是不是还应该考虑其他方面的性质？

非常感谢！

chenvy

SheaGu-SEU 进车道的等待车辆数目和的负值，拿来做奖励就挺好用的

Richard

这个吧，建议看一下这三个中如何设置的环境

Gym中如何设置环境的
伯克利开源的traffic flow中
carla环境中

SheaGu-SEU

Richard 感谢指点！

ALL_IN_RIGHT

建议参考这些文献的奖励函数设

SheaGu-SEU

ALL_IN_RIGHT 感谢，目前正在尝试各种奖励函数

[未知] 确实，我增加DQN网络神经元之后，用这个奖励函数跑出来了

12345jacky

请问使用sumo环境怎样编写状态及运行代码，可以借鉴下这部分的代码吗

Document