用QMIX做红蓝双方对抗,蓝方采取Minmax策略时很难训,因此用self-play方式尝试了一下,主要试了naive self-play(只和最新的自己打) 和 neural ficitious self-play,训了一天多(十几万episode)打minmax还是打不过,请问有可能是哪些原因造成的?(可保证qmix算法实现没有问题)
以及针对困难环境的训练有什么比较高效有效的方式吗?
也许可以试试: 用这两个版本的QMIX:https://github.com/marlbenchmark/off-policy / https://github.com/hijkzzz/pymarl2 然后另外就是增强探索