当前位置:   article > 正文

西南民族大学自然语言处理期末整理

西南民族大学自然语言处理期末整理

困惑度定义: 困惑度表示用一个语言模型来预测一个文本序列的困难程度,也可以理解为该模型对于新文本的预测能力。

耦合度定义:

语料库: 语料库  (corpus)  就是存放语言材料的仓库  (语言数据库)

语料库语言学: 

1、不是新术语:利用语料库对语言的某个方面进行研究,或者发现某些规律性知识

2、是新术语:对现行语言学理论进行批评,提出新的理论

共时语料库&历时语料库:

共时: 是为了对语言进行共时 (同一时段) 研究而建立的语料库。研究大树的横断面所见的细胞和细胞关系,即研究一个共时平面中的元素与元素的关系。

历时:  是为了对语言进行历时研究而建立的语料库。研究大树的纵剖面所见的每个细胞和细胞关系的演变,即研究一个历时切面中元素与元素关系的演化。

判断历时语料库规则:

1、是否动态:语料库必须是开放的、动态的

2、文本是否具有量化的流通度属性:所有的语料都应来源于大众传媒,具有与传媒特色相应的流通度属性。其量化的属性值也是动态的。

3、深加工是否基于动态的加工方法:随语料的动态变化采集,并进行动态地加工。

4、是否取得动态的加工结果:语料的加工结果也应是动态的和历时的

平衡语料库: 平衡语料库着重考虑语料的代表性与平衡性。

平衡语料库: 1、一种是指在同一种语言的语料上的平行 2、另一种平行语料库是指在两种或多种语言之间的平行采样和加工, 例如,机器翻译中的双语对齐语料库

3、了解汉语分词的基本规则

3.1 语义上无法由组合成分直接相加而得到的字串应该合并为一个分词单位。(合并原则)

3.2 语类无法由组合成分直接得到的字串应该合并为一个分词单位。(合并原则)

3.3 切分原则:有明显分隔符标记的应该切分之分隔标记指标点符号或一个词。

3.4合并原则:附着性语  (词)  素和前后词合并为一个分词单位。

3.5 合并原则:使用频率高或共现率高的字串尽量合并为一个分词单

位。

3.6 合并原则:双音节加单音节的偏正式名词尽量合并为一个分词单

位。

3.7 合并原则:双音节结构的偏正式动词应尽量合并为一个分词单位。

3.8 切分原则:内部结构复杂、合并起来过于冗长的词尽量切分。

3.9 切分原则:内部结构复杂、合并起来过于冗长的词尽量切分。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/367529
推荐阅读
相关标签
  

闽ICP备14008679号