Benford定律可能是与实际生活最为密切的统计学定律之一,但却是由一位物理学家命名的。1935年美国物理学家Benford在图书馆翻阅对数表时发现,对数表的头几页比后面的页更脏一些,这说明头几页在平时被翻阅得更频繁。进一步地研究后发现,只要数据的样本足够多,数据中以1为开头的数字出现的频率并不是1/9,而是30.1%。而以2为首的数字出现的频率是17.6%,往后出现频率依次减少,9的出现频率最低,只有4.6%。
Benford通过对其它数字进行调查,发现各种完全不相同的数据,比如人口、物理和化学常数、棒球统计表以及斐波纳契数列数字中,均有这个定律的身影。比如湖的面积,河流的长度,物理学常数,股票指数,电脑文件的大小等等,不过也有不符合的,如摇奖号码,电话号码等。1961年另一位美国科学家提出:Benford定律其实是数字累加造成的现象,即使没有单位的数字。比如假设股票市场上的指数一开始是1000点,并以每年10%的程度上升,那么要用7年多时间,这个指数才能从1000点上升到2000点的水平;而由 2000点上升到3000点只需要4年多时间;但是,如果要让指数从10000点上升到20000点,还需要等7年多的时间。因此我们看到,以1为开头的指数数据比以其他数字打头的指数数据要高很多,或者换句话说数据将在1打头的点停留的时间比停留在其他数字打头的要多得多。再比如全世界200个左右国家地区,如果我们看面积的第一个数字出现的频率,1到9也遵守Benford定律,同样这些国家地区的人口的第一个数字也遵守Benford定律,因为人口也可以认为是指数增加的。这其实是一件可以使用的很奇妙的事情:用Benford定律可以检验公司年报、政府公布的财政数据是否真实,如果我们发现一段时间和一系列的结果与Benford定律有较大出入,就有理由怀疑有人做了手脚。
从数学上解释这个所谓奇妙的事情,实际上可与十进制有关。任意选择一个真实的数,以10进制的形式表示,则第一位有效数字为d的概率为log10[(d+1)/d]。当D=1时,对应的概率为log10 2=0.301。即第一位有效数字为1的概率为30.1%。当D=2时,对应的概率为log10 (3/2)=0.1761。即第一位有效数字为2的概率为17.6%,等等。
了解更多 http://en.wikipedia.org/wiki/Benford’s_law