赞
踩
20%的用户贡献了80%的访问量……
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
齐普夫定律是众所周知的数理语言学中得重要定律,这个定律发现了在按频率递减顺序排列的频率词表中,单词的频率与它的序号之间存在“幂律”(power law)关系。
其中,f表示频率(frequency),r表示序号(rank),c和γ是参数。
齐普夫定律是再1935年由美国哈佛大学教授、语言学家G. K. Zipf(1902-1950)在E. Condon研究的基础上提出来得。他根据M. Hanley为J. Joyce的中篇小说《尤利西斯》(Ulysses)一书所编的频率词典,文本容量为260,432个词,词典中收不同的单词29,899个[1]。Zipf根据英语的数据计算出,在英语中, γ大约等于1。这样的研究与传统语言学最大的不同之处在于,这种研究要以大量的语言数据作为实验的基础,是一种数据密集型的研究。
G.K. Zipf根据有关的数据做出了如下的函数图表。
后来学者们在大量数据的基础上进一步研究,发现上述公式并不能完全地反映频率词典中序号的分布规律。例如,从公式看来,一个r的值只能对应于一个f的值,因此,公式本身的性质决定了文本中不能存在频率相同的单词,这与语言的客观事实显然是不符合的。试验证明,当15<r<1500的时候,频率相同的词群容量不大,但是,当r>1500时,也就是当单词的频率比较小的时候,频率相同的词群的容量就大大增加了。这时,就会出现数据稀疏的问题。可见,上述各个公式都不能用来描述低频率的单词的序号分布情况,事实上,前面的函数图象应该为如下的形式:
实际上,并不是一条直线而是一条阶梯形的破碎折线。从图中可看出,序号高的低频率单词,不同的序号很可能具有相同的低频率,因而这些低频率单词,序号不同而频率相同的很多,而序号低的高频率单词,频率相同的词随着序号的降低越来越少。可以说,频率的雷同数是随着序号的降低而减少的,越是序号高的单词,频率相同的越多,越是序号低的单词,频率相同的越少。这种事实,用上述各个公式都不能很好地描述。可见,词的序号分布规律还有必要进一步加以研究。
引自:http://blog.sina.com.cn/s/blog_72d083c70102duho.html赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。