环境或状态可不可以是随机变量,不随着采取的动作的不同而发生改变?例如在计算卸载场景中,状态是信道质量(随机变化),动作是卸载方式(本地计算或卸载至服务器),动作并不会影响状态,这种情况是否适用于强化学习?
Sputnik
Sputnik 您可以查看Dueling Q-learning并与Q-learning比较一下,相信会有所收获。
你这状态包含的信息太少了,状态信息不够的话,会很难收敛。
我最近也在处理这个问题,请问楼主解决了吗