状态的数据表征选择问题(8 or 111)

MISTCARRYYOU

比如我的环境中有一个变量，从1-8代表不同的状态，那我是应该直接在state的表示中使用数字1,2,3,...,8，占用一个Input神经元去输送到policy里，还是应该将其转化为001,010,011,...111这样的二进制编码，占用三个input神经元呢？之前自己的实验证明两种方法只会对收敛快慢有很小的影响（实验可能不完全对），但是看论文里很多都主张换二进制编码，想问一下这是为什么呢？

YuqiaoBai

应该是和one hot编码一个道理吧

Document