深度强化学习在四足机器人中的应用于实现

一、问题描述

传统的机器人行走控制如图1所示。

图1 传统机器人运动控制框图

包括三个环：平衡控制、运动轨迹控制、电机控制。传统的控制需要利用外部的视觉信号以及机器人的传感器获取环境及自身的状态信息，然后进行特征提取，从这些信息中获取有价值的信息，最后控制器根据机器人的外部及内部状态信息，由控制器计算得到控制输出，作用于被控对象。

传统的控制的困难有两个：

（1）需要建立精确的被控对象模型，但这常常难以得到；

（2）非线性控制器设计难度较大，约束条件很多。

基于上述两方面的困境，考虑采用黑盒模型，寻找有无简便的控制策略，是否能实现端到端的控制，即直接利用外部数据实现控制。端到端的结构示意图如图2所示。

                                                                      图2 机器人端到端控制

强化学习具有这种特性，可以解决model-free问题。

                                                                         图3 基于强化学习的机器人端到端控制

二、强化学习

                                                                 图4 典型机器学习算法

强化学习属于第三类机器学习，是在没有数据和标签作用下，通过智能体与环境相互交互，不断试错获得控制策略的一种智能算法。

对于复杂的控制问题，常常会引入深度学习算法，利用深度神经网络可以获得数据特征。

三、如何利用深度强化学习实现机器人运动控制？

3.1 强化学习与控制系统的对应关系

                                                      图5 基于深度强化学习实现机器人运动控制

将智能体看作控制策略，将机器人、外部干扰都看作环境。强化学习与控制系统的对应关系如图6所示。

                                                           图6 强化学习与控制系统的对应关系

误差/代价函数相当于控制里的最优控制，这一过程由强化学习算法实现，传统的控制策略常用的有LQR等，而强化学习则是使得价值函数最大化。

3.2 利用MATLAB设simulink实现强化学习流程

                                                                                  图7 实现步骤

3.3 利用仿真模型生成训练数据

————————————————

Document