在RLHF中，如何训练一个高质量的RM模型？

在RLHF中如何训练一个高质量的奖励函数模型？有没有现有的一些资料，博客或者开源项目

ps：这里奖励不仅仅是针对LLM领域的

Document