WheatField
WheatField

Probability

October 16, 2022188 words, 1 min read
Authors

Metrics

KL Divergence

KL (Kullback–Leibler divergence )散度 (相对熵,信息差)是衡量两个概率分布 P,QP, Q 之间差异的一种度量方法。KL 散度的定义为:

DKL(PlVertQ)=sumxinmathcalXP(x)logfracP(x)Q(x)D_{KL}(PlVert Q) = sum_{x in mathcal{X}} P(x) log frac{P(x)}{Q(x)}

如果 P,QP, Q 为连续分布,那么 DKL(PlVertQ)=intinftyinftyp(x)logfracp(x)q(x)dxD_{KL}(P lVert Q) = int_{-infty}^{infty} p(x) log frac{p(x)}{q(x)} dx

以上定义刻画的是当我们用 QQ 来表示 PP 时,需要多少额外的信息。一般来说,PP 代表观察到的数据或者一个真实分布,QQ 代表模型分布,因此 DKL(PlVertQ)D_{KL}(P lVert Q) 也被称为模型复杂度。

KL 散度满足的性质:

  • 非负性。如果 PPQQ 是相同的分布,那么 DKL(PlVertQ)=0D_{KL}(P lVert Q) = 0
  • 非对称性,即 DKL(PlVertQ)neqDKL(QlVertP)D_{KL}(P lVert Q) neq D_{KL}(Q lVert P)