请教各位,在一个车联网任务卸载环境中,有多个车辆、多个RSU,每个时间片只有一个任务需要做出卸载到车辆本地或者最近的RSU的决策,任务挂靠的车辆是随机选择的
假设这个时候我设计了一个强化学习环境,状态是车辆、RSU的计算资源、通信资源和任务的信息,action是卸载到车辆、RSU的二元决策变量,奖励只有在任务完成的时间片才会获得,如果一个时隙没有任务完成,则为0。有任务完成则为任务完成耗费时延的负数,以最小化任务完成时延
这个时候就有个问题,我目前方案是固定时隙,环境到达时隙限制就结束,但是如果最后一个时隙的任务还没有完成,那么它的奖励就不可知了,但是如果要设计最后一个时隙的任务也完成,拿到所有任务的奖励,那么最后一个任务分配完到它执行完获得奖励的过程中,state可以保持,但是没有任务可供分配了,action有什么意义呢?