如何把数学模型转化为强化学习环境
yycjs6 要把问题描述的细致一些,这个过于笼统
类似于有目标函数和约束条件,优化问题。 然后对问题进行数学模型建立,接着通过马尔可夫决策过程转化为对应的强化学习模型,建立状态空间、动作空间和奖励函数,这种如何写成强化学习的环境,有没有什么开源的代码学习。 类似领域有组合优化等,如JSP问题、能源管理等