金融量化论文OPD复现问题

尝试复现OPD算法(论文Universal Trading for Order Execution with Oracle Policy Distillation).

在单一的市场环境(固定时刻, 固定股票)中尝试验证算法, 发现每次都快速收敛到在最初的时刻将所持股票全部卖出, 而不是在股价最高点.

调高entropy loss的权重也无效果.

可能是什么原因呢

]

Document