这个问题之前也想过,因为启发式算法和强化学习算法都属于基于搜索,再具体一点,算是基于多叉树搜索的优化算法,并且和盲目搜索(深度优先,广度优先)比都是带有目的性的。这一点在解决GRID-WORLD问题上就能感觉到。
例如:启发式算法以A*搜索算法为例,其通过每次计算open表中的估价最小的节点来确定搜索顺序;强化学习以Q-learning为例,其通过不同状态与动作下的回报期望(即Q-value)来决定搜索顺序。
然而,哪怕是目的或者过程十分的类似,但如何决定下一个节点选择哪个才是解决问题的关键,在这个问题上,两者的理论基础和方式完全不同。
个人愚见:
启发式算法是利用一定的目标函数(如神经网络的损失函数)引导搜索局部最优解的,而强化学习则利用MDP过程中的期望收敛性不断逼近最优解(有点绝对了)。启发式算法的优化模式很多,无论是单目标还是多目标还是每种算法的输入输出类型;而强化学习的模式较为单一,即从agent和environment的交互中更新参数(即学习),然而现实或者仿真场景中的学习确实都是强化学习的模式。