比如我的环境中有一个变量,从1-8代表不同的状态,那我是应该直接在state的表示中使用数字1,2,3,...,8,占用一个Input神经元去输送到policy里,还是应该将其转化为001,010,011,...111这样的二进制编码,占用三个input神经元呢?之前自己的实验证明两种方法只会对收敛快慢有很小的影响(实验可能不完全对),但是看论文里很多都主张换二进制编码,想问一下这是为什么呢?
应该是和one hot编码一个道理吧