如题,强化学习可以看作是一种优化算法吗?如果可以,强化学习算法和粒子群算法等优化算法的对比如何进行呢?因为粒子群算法等优化算法通过不断迭代寻找最优适应度值,而强化学习关注的是奖励,两者之间如何扯上关系呢
aoao 研究一下进化强化学习, Evoluation Reinforcement learning,比如: https://arxiv.org/abs/2007.04725