目前Reward Model(RM)的研究现状如何?是否是突破RL的方法
Learner 这几天新出的:Self-Play Preference Optimization(SPO)自我博弈偏好优化方法关注一下, A Minimaximalist Approach to Reinforcement Learning from Human Feedback(https://arxiv.org/pdf/2401.04056.pdf)
个人感觉奖励其实是个壁垒 🤣