小议概率分布的统一

小议概率分布的统一 2013-02-23

从正态出发几乎可以得到能想到的所有种类的概率分布，正如同维基百科上一张图所显示的那样

那么这到底是为什么？在一本冷僻的叫做《组成论》的书里（张学文著，2003，中国科学技术大学出版社）给出了我认为比较合理的一个答案。这本书研究了各个领域的概率分布问题，把常用的概率分布的形成机理都从最大熵原理去解释了个遍，发现所有的概率分布都可以概括为该原理在不同场合配合不同的约束条件下的必然结果。

举正态分布为例：一个连续变量x的概率密度分布函数是f(x)，那么这个函数的积分应当等于1即

\[{\int_{-\infty}^{+\infty}{f(x)}\,\mathrm{d}x=1}\]

如果假设该随机变量有一定的波动范围，则标准差必须为一个固定值，也就是说

\[{\int_{-\infty}^{+\infty}{(x-a)^2f(x)}\,\mathrm{d}x=\sigma^2}\]

如果f仅受上面的约束且x具随机性，在此约束下的随机性最大也就是其对应的信息熵最大即

\[{\int_{-\infty}^{+\infty}{-f(x)ln(f(x))}\,\mathrm{d}x}\]

应当最大。利用拉哥朗日方法构造新函数F

\[F={\int{-f(x)ln(f(x))}\,\mathrm{d}x}+C_1[{\int{f(x)}\,\mathrm{d}x}-1]+C_2[{\int{(x-a)^2f(x)}\,\mathrm{d}x}-\sigma^2]]\]

以上积分应当遍历变量x的一切可能值（也就是从负无穷大积分到正无穷大），极值点就是要求函数F对f的变分为零，得到

\[\frac{\partial{F}}{\partial{f}}=0\] \[\Rightarrow{-ln(f(x))-1+C_1+C_2(x-a)^2=0}\] \[\Rightarrow{f(x)=e^{-1+C_1+C_2(x-a)^2}}\]

这个式子已具有正态的外型了，再利用约束把待定常数C1、 C2确定出来即可。这样我们就利用最大信息熵和标准差为常数的限制得到了正态分布的公式，说明对于确定的标准差，随机变量可以有很多种分布函数，但是复杂程度最大（信息熵最大）的分布函数就是正态分布。

以上我们看到一个随机变量的变化幅度为固定值，则他服从正态分布。用类似的推导我们还可以得到（以下需注意到存在几何平均值就要求变量为正）：

一个随机变量的代数平均值为固定值，则他服从负指数分布；

一个随机变量的平方平均值为固定值，则他服从指数分布；

一个正的随机变量的几何平均值为固定值，则他服从幂分布；

一个百分比随机变量x和1-x的几何平均值分别为固定值，则他服从贝塔分布；

一个正的随机变量（如河水流量）其代数平均值和几何平均值分别固定，则他服从Gamma分布；

一个正的随机变量的n方平均值和几何平均值分别为固定值，则他服从Weibull分布；

所以说概率分布的统一，背后其实是有深刻物理意义的最大熵原理在决定的。