定位&价值
- 个人助理
- 结合搜索、推荐引擎,提供更好的信息检索工具。
- 统一、新的交互方式。
实现思路
参考 ChatGPT/InstructGPT 的方法,分3步走。
一、GPT-NeoX 基础上训练基础大模型,得到 SFT 模型
1. 用公开数据集,训练基础模型。知乎、百度、有了 等
2. 用自己数据和标注的 <prompt, reponse> 数据集,微调基础模型得到 SFT。(标注 50k*,具体参考数据结构)
二、标注排序数据集 ,训练奖励模型 RM。
1. 初始模型放在 playground 上,让大家用,然后把大家问题和反馈采集回来作为一部分排序数据集。
2. 标注团队标注出高质量排序数据集。
3. RM和SFT尽可能共享参数,如把最后的 unembedding layer 去除,也就是softmax 层去除,换成一个线性层(单个神经元)来投影到单个数值(标量)上,作为分数(scalar reward)。
4. 需要把排序数据换算成分数,作为 RM 的 target 。如使用 Pairwise Ranking Loss 。
三、使用强化学习方法 PPO,RM 的输出作为奖惩,进一步微调 SFT ,使它能够得分越来越高,得到 boss-gpt 模型。
排序数据集
需要把排序数据换算成分数,作为 RM 的 target 。如使用 Pairwise Ranking Loss

可能的具体事项
- 交互式数据收集相关开发
- 后端
- web 客户端
- ChatBot 机器人客户端
- 可视化、高效率收集数据工具,如 Leaderboard
- 数据爬虫和清晰
- 模型训练
- SFT 和 RM 的训练可以并行
- 数据、模型并行加快落地速度
- 深度学习平台的支持
- GPU 运维&通信加速
- 训练&推理服务的支持
- 分布式存储及数据集的支持
- 开发及和运行时的支持
- 数据增强
- 数据安全和隐私保护