声明:本文内容整理自参考文献和其他一些总结,分享仅供学习交流使用。
2021.10.21补充 171. 强化学习中一般会加入explore策略,以避免agent过早陷入到局部最优解,以下哪个不是常用的explore策略 (A)epsilon greedy; (B)entropy regulation; (C)dropout; (D)curiosity reward 题目来源: 链接:牛客网 172. Baseline为什么可以直接减去一个值而对策略迭代没什么影响? 173. TRPO的优化目标是什么? 174. TRPO求逆矩阵的方法是什么? 175. PPO相比于TRPO的改进是什么? 176. PPO处理连续动作和离散动作的区别? 177. PPO的actor损失函数怎么算? 178. Advantage大于0或者小于0时clip的范围? 179. 有没有用过分布式ppo?一般怎么做底层通信? 180. Vtrace算法了解吗?IMPALA相比于A3C的优势? 181. GAE了解吗?两个参数哪个控制偏差哪个控制方差? 182. 详细介绍下GAE怎么计算的。 183. 常用的探索方法有哪些? 184. 知道softQ吗? 185. 强化学习做过图像输入的吗? 186. 自博弈算法完全随机开始和有预训练模型的区别? 187. 介绍纳什均衡 188. 介绍蒙特卡洛搜索树
欢迎大家在评论区按照题目编号填充答案!优质回答会有惊喜!
参考文献: [1]. https://zhuanlan.zhihu.com/p/52143798 [2]. https://mp.weixin.qq.com/s/R6eFiv3Iczli2nNCfOt6gg [3]. https://github.com/NeuronDance/DeepRL/blob/master/DRL-Interviews/drl-interview.md [4]. https://my.oschina.net/u/4339481/blog/4498611 [5]. https://zhuanlan.zhihu.com/p/335624695
实验室官方助手 多智能体的相关题目有没有?
实验室官方助手 非常赞
实验室官方助手
发现好多都是简单题,有没有提出的编程或者模型设计、论文核心原理之类的?
快速简单答一答,当复习基础知识了,个人理解,不保证严谨。
Nnnh