深度强化学习公式推导

想问一下大家，在写深度强化学习应用类文章时（如应用PPO在股票机器人、应用DQN在车间调度），论文中公式的推导一般都是从哪产生的呢？感觉做的时候就是模型的堆叠和调试，只有公式表示，没有公式的推导。

Document