赞
踩
大约八十年前,哈佛大学的语言学家乔治·金斯利·齐普夫(George Kingsley Zipf)对英语中的词频分布进行了研究,发现了一条经验规律,他发现:如果把一篇较长文章中每个词出现的频次统计起来,按照高频词在前、低频词在后的递减顺序排列,并用自然数个这些词编上的等级序号,即频次最高的词等级为1,频次次之的等级为2等等,若用 F F F表示频次, R R R表示序号,则有 F R = C FR=C FR=C( C C C为常数),也就是说词语的频次和其频次排名呈反比例关系。假如以单词的频次排名为横轴,以单词的频次为纵轴绘制散点图,会发现图形大致呈现双曲线形。为了数学上处理的方便,我们可以对词频及词频排名取对数(自然对数或以十为底的对数均可),考虑到: F = C R F=\frac{C}{R} F=RC,则有:
l o g ( F ) = l o g ( C ) − l o g ( R ) log(F)=log(C)-log(R) log(F)=log(C)−log(R)
所以 l o g ( F ) log(F) log(F)与 l o g ( R ) log(R) log(R)应呈线性关系,在图形上应该是一条直线,如下:
受到齐普夫的启发,其它学者也纷纷验证该定律对其它语言的适用性,他们发现齐普夫定律在很多语言中也是成立的。如上图,频次排名对数与频次的对数成线性关系。一个很自然的问题是,该定律在汉语中的适用性如何?
汉字作为象形文字,显著不同于以英语为代表的拼音文字,其语言的基本单位为单字,然后再由单字组成两字词、三字词等以表达更加复杂的意义。拼音文字的基本单位为单词,意义的扩展通过创造新词汇或者拼接已有单词组成新词汇来实现。因此,英语可以以单词为单位来统计词频,而汉语则必须以词语为基本单位来统计,这既包括单字,也包括多字词,只有这样才能准确描述汉语词频的分布规律
利用教育部语言文字应用研究所计算语言学研究室提供的在线语料库字词频数据,我们可以检验齐普夫定律在汉语中的适用性,加深我们对汉语词频分布规律的认识。由于以上数据并不包括汉字的笔画数数据,我们可以利用笪骏提供的现代汉语单字频率列表,进一步研究汉字笔画数的分布规律。
我们使用jupyter notebook对以上数据进行分析,相关notebook及数据文件已经上传到这个仓库,大家可以下载数据进行分析验证。数据文件版权归原作者所有,如有侵权请通知我删除。
首先,我们导入一些数据分析必要的库,并做一些初始化设置:
import numpy as np
import statsmodels.api as sm
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings("ignore")
import seaborn as sns
sns.set(style="white",color_codes=True)
import pandas as pd
%matplotlib inline
plt.rcParams['figure.figsize'] = (15,9.27
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。