目前Reward Model（RM）的研究现状如何？是否是突破RL的方法

Learner

Richard

Learner 这几天新出的：Self-Play Preference Optimization(SPO)自我博弈偏好优化方法关注一下，
A Minimaximalist Approach to Reinforcement Learning from Human Feedback（https://arxiv.org/pdf/2401.04056.pdf）

个人感觉奖励其实是个壁垒 🤣

Document