对这几个概念,我一直理解不能。
先抛个砖,希望有更确切的中文定义~
rollout:在CS相关论文中,一般rollout表示一次试验,一条轨迹。就比如我们我们用MC仿真出了一个episode,这个episode就是一个rollout。
episode:一条轨迹
epoch:可能有多个轨迹?因为强化里面的epoch和深度学习的不一样,我在HER相关的论文里看到的epoch,是有50个episode组成的。
trajectory:一条轨迹
cycle:
simulation step:智能体和环境的一次交互
update step:网络更新一次
有的甚至在不同的论文和代码里,代表的含义都不一样。