Derek J. de Solla Price. Network of Science Papers. Science 149, 510-515 (1965).
这篇论文最早发现了科学论文引文网络中的幂律度分布,并提出了一个平衡态的链接模型,依靠论文平均引文数保持不变的假说,作者推出了一个引文增长网络结构,在该种结构下,被引用率高的文献的被引用次数会越来越多,因此最后形成论文被引用次数的幂律度分布。实际上,在这篇论文中,Price并没有给出详细的数学推导过程,有兴趣的同学可以参考K. K. Tung的Topics in Mathematical Modeiling (Princeton University Press, Cambridge, MA, 2007) 一书的第二章。
延伸: 科学论文引用网络的幂律度分布,数十年后,得到了更大规模数据的确认。可参考S. Redner. How popular is your paper? An Empirical Study of the Citation Distribution. The European Physical Journal B 4, 131-134 (1998) 以及 Filippo Radicchi, Santo Fortunato, Benjamin Markines & Alessandro Vespignani. Diffusion of scientific credits and the ranking of scientists. Physical Review E 80, 056103 -056113 (2009). 此外,科学论文的合作者网络,也被证明是符合幂律度分布的,可参考 M. E. J. Newman. The structure of scientific collaboration networks. PANS 98, 404-409(2001) 以及 M. E. J. Newman. Coauthorship networks and patterns of scientific collaboration. PNAS 101, 5200-5205(2004).
B. Mandelbrot. A Note On a Class of Skew Distribution Functions: Analysis and Critique of a Paper by H. A. Simon. Information and control 2, 90-99 (1959).
1959年到1960年,B. Mandelbrot和H. A. Simon在Information and control上有一场激烈的争论。两人都提出了自己的数学模型来解释语言学中的Zipf律,并指责对方的模型存在问题(Mandelbrot 1959,Simon 1960,Mandelbrot 1961a,Simon 1961a,Mandelbrot 1961b,Simon 1961b)。Simon认为Mandelbrot的“信息熵”的概念不适用于理解语言学中的信息概念,Mandelbrot指出自己的模型中的信息熵可以在非平衡态热力学和统计学的框架下得到更好的理解,代表的是一种最可能的状态,而并不局限于语言传递的真实信息,同时,Mandelbrot在这篇文章中指出Simon的Zipf模型只在幂指数小于-2的情况下成立,而且Simon模型中的“每次增加一个”的假设对于语言学是适用的,但并不能很好地解释经济学中的财富分布等情况。
Albert-Laszlo Barabasi & Reka Albert. Emergence of scaling in random networks. Science 286, 509-512(1999).
延伸: 互联网链接的幂律度分布结构的实证研究,可参考A.-L.Barabasi, R. Albert, H. Jeong, G. Bianconi, Power law distribution of the World Wide Web, Science 287(2000).2115. 通过和来自各个学科的科学家合作,A.-L.Barabasi将他的模型迅速推广到各个领域,在过去的十年中掀起了一次复杂网络的研究热潮。各类期刊上出现了满足幂律度分布的大量实证网络数据,在此不详述。
Bernardo A. Huberman, Peter L. T. Pirolli, James E. Pitkow, Rajan M. Lukose. Strong Regularities in World Wide Web Surfing. Science 280, 95-97 (1998).
延伸: 在Bernardo A. Huberman, Lada A. Adamic Growth dynamics of the World-Wide Web Nature, 401, 131(1999)中,作者举出两大引擎的网页搜索数据,证明其搜索到的网页确实呈现幂律分布。Bernardo A. Huberman & Lada A. Adamic. Evolutionary Dynamics of the World Wide Web. Arxiv preprint cond-mat/9901071(1999)再次解释了这个结果。
multiplicative process增长过程的另外一个名字叫Gibrat律,在生物学、地理学和经济学中都有出现。在地理学中可参考S. Nordbeck, Geografiska Annaler, Urban allometric growth, Series B, Human Geography 53 (1971) 54. 在经济学中可参考 D. Canning, L.A.N. Amaral, Y. Lee, M. Meyer, H.E. Stanley, Scaling the volatility of GDP rates, Economic Letters, 60 (1998) 335 以及 Jan Eeckhout. Gibrat’s Law for (All) Cities. the American Economic Review 94, 1429–1451(2004).
Ramon Ferrer i Cancho & Ricard V. Solé. Least effort and the origins of scaling in human language. PNAS 100, 788-791(2003).
这篇论文重新诠释了语言学中的“最省力”(least effort)原则,并在信息论的框架下给出了这个概念的具体数学定义。其实,least effort这个概念,本身就是一个很有潜力的概念,由语言学家G. K.Zipf在Human behavior and the principle of least effort (Addison-Wesley, Cambridge, MA, 1949)一书中提出来。虽然Zipf发现了语言学,及其他一些数据中的Zipf律,并指出其可能是least effort的后果,但并没有建立完善的数学模型。本论文中,作者提出了一个Speaker和listeners互相博弈的框架:Speaker倾向于每个字都相同,这样在发音的时候是最省力的(最小熵),listener则希望每个字都不同,这样则最容易识别出每个字的意义(最大熵)。博弈的结果是双方平均分担交流的成本,最后导致存在幂律的语言学结构。
Michael Mitzenmacher. A Brief History of Generative Models for Power Law and Lognormal Distributions. Internet Math1, 226-251(2003).
Xavier Gabaix, Parameswaran Gopikrishnan, Vasiliki Plerou & H. Eugene Stanley. A theory of power-law distributions in financial market fluctuations. Nature 423, 267-270 (2003).
Aaron Clauset, Cosma Rohilla Shalizi & M. E. J. Newman. Power-law distributions in empirical data. SIAM Review 51, 661-704 (2009).
这篇论文介绍了如何确认和分析实证数据中的幂律分布。主要谈了使用双对数坐标系下线性回归拟合求幂指数可能产生的问题及其原因;如何使用最大似然估计方法拟合幂指数,以及如何使用ks值和likelihood ratios来确定幂律分布(作者在Santa Fe Institute的网站上公布了可用于拟合和检验的R和Matlab程序)。 这篇文章对于从事复杂系统实证数据分析的同学尤其有参考价值。
D. Yu. Manin. Mandelbrot's Model for Zipf's Law: Can Mandelbrot's Model Explain Zipf's Law for Language? Journal of Quantitative Linguistics 16, 274 -285 (2009).