赞
踩
一看题目就知道本文内容较多,但因为放在一起讨论才能互相比较理解异同。本文主要讨论重尾分布,长尾分布,肥尾分布三者的联系,同时顺带讨论了一下 Random walk 中的 Lévy flight 和 Brownian motion。主要内容参考自 Wikipedia 和 Rick Wicklin 的博文 Fat-tailed and long-tailed distributions。其实我们讨论重尾长尾肥尾,数学上并没有一个明确的对于尾(tail)的定义,但这也并不妨碍我们进行一些推导和分析。
从博文 概率论基础概念总结 Basic Concepts in Statistics 中我们了解到指数分布在
重尾分布更适用于对那些离峰值较远的稀有事件也会有相当的概率发生的情况。重尾分布作为一个大的类别,还包含三个重要的子类别,分别是肥尾分布(Fat-tailed distribution),长尾分布(Long-tailed distribution)和次指数分布(Subexponential distribution)。后文会对前两者进行讨论。
长尾分布,或者说长尾理论是一个与互联网发展分不开的概念。说到这里就不得不先提一下传统商业中的帕累托法则(Pareto principle),又称为二八定律。比如80%的财富集中在20%的人手里,图书馆里20%的书可以满足80%的顾客。于是大家往往只关注在PDF图中最左面的20%的顾客,以期满足80%,如下图绿色的部分,来实现效益的最大化。
但在一些网上零售业中,如Amazon和Netflix,数据表明右端黄色的尾巴虽然平均需求小但是由于数量巨大,导致其总的营销收益甚至超过主流的商品。这一发现似乎对商业界的触动极大,也说明了正确建模的重要性。如果用指数分布进行建模,这些远端的需求也许就会被忽视;而用长尾分布进行建模就可以发现这些新的需求从而带来效益的提高。
长尾分布的数学定义为:
从建模的角度来看,肥尾分布就是针对那些罕见事件虽然发生的概率低,但也必须要考虑到的情况。比如一个保险公司考虑灾害的发生和保险的定价,那么像自然灾害这种情况,如果不考虑的话就可能面临真的发生时要赔很多的情况。因为正如肥尾分布的名字所体现的,即使在远离峰值的远端,那些罕见事件还是有相当的概率会发生的。虽然我们常常用正态分布对很多时间进行建模,但当一个事件的本质是肥尾分布而我们误用了正态分布或指数分布时,就存在着对“小概率事件真的发生”这种危险的低估。据说美国股市历史上的黑色星期五,千禧年的互联网泡沫破灭,以及2008年前后的金融危机都是这种错误的真实案例(来源:Wikipedia, Fat-tailed distribution)。
肥尾分布的数学定义为:
所谓随机游走,是统计学中一个很广泛的概念,包含了很多内容。我没能找到一个统一的数学模型来描述随机游走,但大意就是在任意维度的空间里,一个点随机地向任意方向前进随机长度的距离,然后重复这一步骤的过程。有一个有名的醉汉回家问题就是一个典型的一维随机游走的问题。
Lévy flight 是随即游走的一种,它的每一步方向完全随机而各向同性,但步长的分布是重尾分布(heavy-tailed)。Brownian motion(好像)也算是随即游走的一种,它的步长的分布取正态分布。下面两张图来自Wikipedia,分别描述了1000次的基于柯西分布的 Lévy flight (左)和基于正态分布的Brownian motion(右)。
已经有相当多的研究表明很多动物的移动模式可以用 Lévy flight 来描述。而近些年通过对人类的移动数据(通话记录、出租车等)的挖掘,我们惊奇地发现人类的移动模式也和 Lévy flight 高度吻合[1]。也就是说,虽然我们每个人急功近利地去追求自己的目标,但在宏观的尺度上,我们和山里的猴子没什么区别[2]。
Ref.
[1] Brockmann, D., Hufnagel, L., & Geisel, T. (2006). The scaling laws of human travel. Nature. https://doi.org/10.1038/nature04292
[2] Rhee, I., Shin, M., Hong, S., Lee, K., & Chong, S. (2008). On the Levy-walk Nature of Human Mobility: Do Humans Walk like Monkeys? INFOCOM, 19(3), 630–643. https://doi.org/10.1109/TNET.2011.2120618
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。