Short Introduction to Fisher Information

这篇文章主要是介绍Fisher Information,也称费雪信息。


basics

fisher information,记为IX(θ)I_X(\theta), 产生的随机变量X的参数θ\theta的费雪信息。其数学表示式写为期望:

IX(θ)=EX((ddθlogf(xθ))2)=X(ddθlogf(xθ))2pθ(x)dx)I_X(\theta) = E_X((\frac{d}{d\theta}\log f(x|\theta))^2) = \int_X (\frac{d}{d\theta}\log f(x|\theta))^2p_\theta(x)dx)

上式中微分表达 ddθlogf(xθ)\frac{d}{d\theta} \log f(x | \theta)被称之为score function, 用来描述参数变化时模型的敏感度(f函数值变化程度)。
从这个数学表达上看fisher information在局部最优时可以看作score function的二阶矩. 此外因为在局部最优点,其期望为0则可以推断fisher information时score function的方差。

IX(θ)=EX(S(x,θ)2)0=EX(S(x,θ)2)EX(S(x,θ))2=VAR(S(x,θ))I_X(\theta) = E_X(S(x, \theta)^2) - 0 = E_X(S(x, \theta)^2) - E_X(S(x,\theta))^2 = \text{VAR}(S(x, \theta))

因此费雪信息可以用来估计MLE估计结果处score function, 也就是log likelihood梯度的方差

如果对n个iid的X抽样做建模,IXn(θ)=nIX(θ)I_{X^n}(\theta) = n I_X(\theta), 因此IX(θ)I_X(\theta)被称之为单位费雪信息. 这个等式表明,对于同一个分布,采样次数越多,对参数估计准确率越高,信息也就越多。

此外,费雪信息在密度函数满足一定的平滑条件时,可以写为:

IX(θ)=EX(d2dθ2logf(xθ))=Xd2dθ2logf(xθ)pθ(x)dxI_X(\theta) = - E_X(\frac{d^2}{d\theta^2}\log f(x|\theta)) = - \int_X \frac{d^2}{d\theta^2}\log f(x|\theta) p_\theta(x)dx

二阶导在几何角度看描述了函数的弯曲程度,也就是函数在该点凸(二阶导大于等于0)和凹(二阶导小于等于0)的程度。这里也就是描述了log likelihood在局部最优的情况,越大说明在局部最优的弯曲程度大,置信区间越窄,数据越可信。

从这个角度再看上面的定义,所谓log likelihood梯度的方差,只有再弯曲程度越大的地方周围区域梯度会剧烈变化,方差很大。这个角度看,两个定义本质一致,平滑条件是为了满足任意阶可导。

在针对高维数据计算费雪信息时,其结构呈矩阵称之为Fisher Information Matrix. 这种情况下,矩阵可以写为:

IX(θ)=EX(logf(Xθ)logf(Xθ)T)=EX(Hlogf(Xθ))I_X(\theta) = E_X(\nabla \log f(X|\theta) \nabla \log f(X|\theta)^T) = - E_X(H_{\log f(X|\theta)})


与参数估计的联系:Cramér–Rao lower bound

对于通过MSE做无偏估计获得的参数,受Cramér–Rao lower bound定理约束,满足以下大小关系:

VAR(T)ϕ(θ)TIθ1ϕ(θ)\text{VAR}(T) \geq \nabla \phi (\theta)^T I_\theta^{-1}\nabla \phi (\theta)

表达式中ϕ(θ)\phi(\theta)表示生成数据的统计量函数,而TT表示对该函数的无偏估计。
这样当我们带入函数ϕ(θ)=λθ\phi(\theta) = \lambda \theta时,ϕ(θ)=λ\nabla \phi (\theta)=\lambda, 相应表达式变成VAR(λT)λTIθ1λ\text{VAR}(\lambda T) \geq \lambda^T I_\theta^{-1}\lambda, 这样最终获得针对无偏估计得到参数的不等式:

Cov(T)Iθ1\text{Cov}(T) \geq I_\theta^{-1}

此外,参考Detian Deng大神的回答,MLE估计到的参数渐进分布的方差是Iθ1I_\theta^{-1}。记为:

n(θMLEθ)N(0,Iθ1)\sqrt{n}(\theta_{\text{MLE}} - \theta) \rightarrow N(0, I_\theta^{-1})


与KL散度的联系:二阶近似

在一定的平滑条件下,可以建立KL散度与Fisher Information之间的关系:

KL(Pθ1Pθ2)12(θ1θ2)TIX(θ1)(θ1θ2)KL(P_{\theta_1} \big| \big| P_{\theta_2}) \simeq \frac{1}{2} (\theta_1 - \theta_2)^T I_X(\theta_1) (\theta_1 - \theta_2)

定义自然梯度

借助这一性质,在信息几何中定义出自然梯度,相对于欧氏空间中的梯度计算:

limϵ0arg mindϵL(θ+d)\lim\limits_{\epsilon \rightarrow 0} \argmin\limits_{\big| d \big| \leq \epsilon} L(\theta + d)

上式可以解释为:向参数空间上某d向量方向走出欧氏空间测量的一小步,使Loss function 更小,选取其中效果最好的d更新参数

信息几何在概率空间使用KL散度作为距离调整了参数更新的目标:

limϵ0arg minKL(θθ+d)ϵL(θ+d)\lim\limits_{\epsilon \rightarrow 0} \argmin\limits_{KL(\theta \big| \big| \theta + d) \leq \epsilon} L(\theta + d)

也就是向参数空间上某d向量方向走出概率空间测量的一小步,使Loss function 更小,选取其中效果最好的d更新参数

写为拉格朗日乘子为:

minL(θ+d)+λ(KL(θθ+d)ϵ)L(θ)+L(θ)Td+λ(12dTIX(θ)dϵ)\min L(\theta + d) + \lambda (KL(\theta \big| \big| \theta + d) - \epsilon) \simeq L(\theta) + \nabla L(\theta)^Td + \lambda (\frac{1}{2} d^TI_X(\theta)d - \epsilon)

对右边针对变量d做梯度,并使梯度为0,则获得L(θ)+λIX(θ)d=0\nabla L(\theta) + \lambda I_X(\theta)d = 0
从而推得d=1λIX1(θ)L(θ)d = -\frac{1}{\lambda} I_X^{-1}(\theta) \nabla L(\theta)
这样我们获得自然梯度的常用定义:

~h=IX1h\widetilde{\nabla} h = I_X^{-1} \nabla h


References

Photo by National Cancer Institute on Unsplash