用self-play方式训练不work

Abby

用QMIX做红蓝双方对抗，蓝方采取Minmax策略时很难训，因此用self-play方式尝试了一下，主要试了naive self-play(只和最新的自己打) 和 neural ficitious self-play，训了一天多（十几万episode）打minmax还是打不过，请问有可能是哪些原因造成的？（可保证qmix算法实现没有问题）

以及针对困难环境的训练有什么比较高效有效的方式吗？

hijkzzz

也许可以试试：
用这两个版本的QMIX：https://github.com/marlbenchmark/off-policy / https://github.com/hijkzzz/pymarl2
然后另外就是增强探索

Document