基本问题 - 深度强化学习实验室

基本问题

Alpha zero 算法可以用在即时策略游戏上吗？
强化学习中的 high-dimensional tasks 这任务的维度怎么理解啊？
有没有一个比较成熟通用的逆强化代码库或者算法推荐~
进化算法和深度强化学习的结合会是新的方向吗？
TD-error 的其他损失
强化学习和启发式算法有什么区别
强化学习里都有哪些利用数据的领域/方法？
在AC网络中A网络比C网络延迟更新有什么优势吗？
请问大家，A2C和A3C谁先提出的？是在哪提出的？A2C是A3C的改进，还是A3C是A2C的改进？
Offline RL 训练完成后，如何评估模型的好坏？
强化学习连续控制任务和离散任务区别怎么理解呢？
为什么强化学习训练了很多个epoch后，还是会出现失败的情况
ppo 的action mask
上万的动作空间，还能用DQN算法吗？
当利用强化学习做决策控制的时候，如果一直选择重复的动作如何解决？

« 上一页

Document