今天我们继续讲优化问题中的自然梯度(nature gradient in optimization)。
上篇我们讲到,模型的输出是一个概率族,定义在某个流形(manifold)上,而不同的模型参数化方式会对应不同的基(或者坐标系)。标准的梯度下降法给出的方向依赖于参数化方式。
因此,我们的目的是找到一个和参数化方式无关的梯度下降方法(Parameterization-independant Decent Direction),这就是natural gradient decent。
上一篇文章: http://deeprlhub.com/d/488-typical-rl-03natural-gradient1
Natural gradient decent的思想就是用模型output distribution的变化来衡量参数更新前后带来的变化(约束参数不要走太"远"),而不是像proximal gradient decent中直接使用、theta的变化来构成右边的正则项。
那怎样衡量输出分布的变化呢?今天我们会讲,KL-divergence是一个很好的方式,并且可以推出neuron manifold上的黎曼度量张量(Riemannian metric tensor)是Fisher Information Matrix(FIM)。
Similarity Measure
衡量两个概率分布的差异时,我们经常使用KL-divergence,而KL-divergence可以用Fisher Information matrix为tensor的metric来近似。
data:image/s3,"s3://crabby-images/951e9/951e91df0aa88cffd5702d8301e6ff996791f9ce" alt=""
这里 F 是Fisher information matrix,
data:image/s3,"s3://crabby-images/e535e/e535e52d59b8e0b9aa4028d86551fc66fffd075e" alt=""
(1)式的推导过程如下
data:image/s3,"s3://crabby-images/2ad3f/2ad3fbc61b5e0521cb1e128817974af8c7847230" alt=""
data:image/s3,"s3://crabby-images/b34d0/b34d0f9a61d1409c035169b4190fbfb0311c6afa" alt=""
data:image/s3,"s3://crabby-images/f27b6/f27b6742b6e215e6151f55faaf993c1c42767b98" alt=""
data:image/s3,"s3://crabby-images/81c6d/81c6d1c976f1a84e05bad604e5dce307d173e298" alt=""
data:image/s3,"s3://crabby-images/0bcaf/0bcafc2a2befa98928631b30cf90663ad6439400" alt=""
data:image/s3,"s3://crabby-images/01537/01537766701079ade02b5a60b011f0df10ff16d5" alt=""
data:image/s3,"s3://crabby-images/d425c/d425ca66d8d522b74b1298ccc78cf0c63e41a69a" alt=""
data:image/s3,"s3://crabby-images/1e49a/1e49a16c5c1e31139fce5361688d848fd67324e0" alt=""
data:image/s3,"s3://crabby-images/12210/122109cf03ccd460e2cfb4e2eff72671133a8416" alt=""
data:image/s3,"s3://crabby-images/b90a9/b90a94f0e2c4bae0ac2557cf23c9a9752807a754" alt=""
data:image/s3,"s3://crabby-images/44f09/44f09be0692615f0d519d3689334ee7932b8eeb7" alt=""
本文同步发表在我个人知乎: https://zhuanlan.zhihu.com/p/378642844