最近实验感觉有点玄学 可能是我刚入门 调参啥的也不怎么会 感觉训练就是不断地再遍历问题空间状态 试图找到一个很好的映射去最大化累积奖励 但是不像一般的分类或回归问题 数据可能是不变的 强化学习过程需要不断与环境交互 导致数据也在变 决策也在变 这就意味着交互过程中需要一遍一遍的去学不同的数据 最后企图找到一个适应于所有数据的映射 还可能存在一些欠拟合过拟合的问题 导致训练结果波动很大 最近感觉有点自闭 。。。
wydxry 可以尝试深入理解一下概念 trajectory, mc,td,td(o), td(lamda),on-policy,off-policy, model-based,model-free q-learning sarsa,dqn........
wydxry 可以去看Dimitri Bertsekas的强化学习与最优控制课程
DRL=近似动态规划
楼主可能上来直接解除了很多DRL的概念,传统的强化学习是非常强的理论支撑性的,像是动态规划的一个转职,加入了神经网络之后问题当然就很多了。建议看一下那本强化学习圣书