本帖主要面向Stable Baselines3项目Doc以及Stable Baselines3 Zoo的源码阅读讨论,欢迎大家一起参与
备注:请大家将问题在此处描述,评论区针对对应问题做回复
实验室官方助手
针对问题1:使用gym.spaces.utils里面提供的flatten()方法,可以将observation_space的数据转化为asarray数组,进而可以输入到神经网络
dqn.learn中的参数total_timesteps是指训练的轮数还是每一轮中环境走的步数,以及如何将每一轮的奖励之和设置为优化的对象呢