分享一下我最近做的有意思的工作,写的不好还请指正~~~
RIIT: Rethinking the Importance of Implementation Tricks in Multi-Agent Reinforcement Learning
讨论多智能体算法中调参对实验的重要影响
https://arxiv.org/abs/2102.03479
主要发现有两个
第一是有太多的SOTAs我们调好参后,就完全没有任何优势了
然后就是MADRL中的单调性约束其实有助于算法提升样本效率
最后我们基于这些发现提出了一个效果还不错的Policy-based算法