自己如何实现 ChatGPT？

sepilqi

定位&价值

个人助理
结合搜索、推荐引擎，提供更好的信息检索工具。
统一、新的交互方式。

实现思路

参考 ChatGPT/InstructGPT 的方法，分3步走。

一、GPT-NeoX 基础上训练基础大模型，得到 SFT 模型
1. 用公开数据集，训练基础模型。知乎、百度、有了等
2. 用自己数据和标注的 <prompt, reponse> 数据集，微调基础模型得到 SFT。（标注 50k*，具体参考数据结构）

二、标注排序数据集，训练奖励模型 RM。
1. 初始模型放在 playground 上，让大家用，然后把大家问题和反馈采集回来作为一部分排序数据集。
2. 标注团队标注出高质量排序数据集。
3. RM和SFT尽可能共享参数，如把最后的 unembedding layer 去除，也就是softmax 层去除，换成一个线性层（单个神经元）来投影到单个数值(标量)上，作为分数（scalar reward）。
4. 需要把排序数据换算成分数，作为 RM 的 target 。如使用 Pairwise Ranking Loss 。

三、使用强化学习方法 PPO，RM 的输出作为奖惩，进一步微调 SFT ，使它能够得分越来越高，得到 boss-gpt 模型。

排序数据集

需要把排序数据换算成分数，作为 RM 的 target 。如使用 Pairwise Ranking Loss

可能的具体事项

交互式数据收集相关开发
- 后端
- web 客户端
- ChatBot 机器人客户端
- 可视化、高效率收集数据工具，如 Leaderboard
数据爬虫和清晰
- 爬虫开发
- 公司现有数据收集
- 数据清洗
模型训练
- SFT 和 RM 的训练可以并行
- 数据、模型并行加快落地速度
深度学习平台的支持
- GPU 运维&通信加速
- 训练&推理服务的支持
- 分布式存储及数据集的支持
- 开发及和运行时的支持
数据增强
数据安全和隐私保护

Document