尝试复现OPD算法(论文Universal Trading for Order Execution with Oracle Policy Distillation).
在单一的市场环境(固定时刻, 固定股票)中尝试验证算法, 发现每次都快速收敛到在最初的时刻将所持股票全部卖出, 而不是在股价最高点.
调高entropy loss的权重也无效果.
可能是什么原因呢
[upl-image-preview url=http://www.deeprlhub.com/assets/files/2023-01-05/1672947223-538771-2-plot-30.png

]