幂律分布(power law distribution)是分布密度函数为幂函数的分布,其概率密度函数满足:
p(x)=Cx−α
其中,C 为归一化系数,α 为幂指数,x 为随机变量。根据密度函数可以得知,x 取值为 m 的概率是 x 取值为 n 的概率的 (nm)−α 倍。x 取值越大,概率越小,但是概率的下降速度是随着 x 的增大而减小的。幂律分布的特点是长尾分布,即随机变量的取值在某个值之后,概率密度函数以幂函数的形式递减。幂律分布的期望和方差存在的条件是 α>2 和 α>3,分别为:
对于定义域 x≥xmin,分布的期望:
E(X)=∫xmin∞xp(x)dx=∫xmin∞Cx1−αdx=2−αCx2−αxmin∞=α−2Cxmin2−α, when α>2
对应的幂律分布的方差:
Var(X)=E(X2)−E(X)2=∫xmin∞x2p(x)dx−(α−2Cxmin2−α)2=3−αCx3−αxmin∞−(α−2Cxmin2−α)2=α−3Cxmin3−α−(α−2Cxmin2−α)2, when α>3
这个特性的意思是,如果一个随机变量服从指数分布,那么它的概率密度函数在 s 时刻的取值与 s+t 时刻的取值无关,即 s 时刻的取值不会影响 s+t 时刻的取值。
这个特性在实际中有很多应用,假设一台电子设备,它的寿命服从指数分布 X∼Exp(λ),已知它已经工作了 s 个小时,那么它继续正常工作 t 个小时的概率与它刚开始工作 t 个小时的概率是一样的。看起来比较奇怪,甚至有点反直觉,但从概率推断一下就可以理解了。设 X 为设备的寿命,s 为已经工作的时间,t 为继续工作的时间,那么,P(X≥s)=1−P(X≤s)=1−F(s)=e−λs。