当前位置:   article > 正文

第一章 语料库语言学基本知识_类符形符比

类符形符比

第一章 语料库语言学基本知识

  (2012-10-21 22:53:07)
标签: 

杂谈

分类: 我的阅读

《语料库应用教程》梁茂成 李文中 许家金著 外语教学与研究出版社 2011年1月

第一部分 语料库语言学基本知识与语料库基本操作

第一章 语料库语言学基本知识

一 基本概念

1. 文本:plain text 纯文本

      raw text 生文本: 保存生语料的文本。

      annotated text 标注文本:标示语料来源、文本内部结构、文本中的语言单位等多种语言信息和非语言

                               信息。

2. 标注 annotation

  常见标注包括元信息标注、词性赋码、句法标注、语言标注、语用标注、语音标注、语误标注等。

   元信息(metadata)标注metadata markup:标注非语言信息,包括文本的外部信息(如引用源、出版商、出版年代、作者等信息)和文本的内部结构信息(如标题、段落、文献、伴随口语的副语言特征等)。

   词性赋码 (part-of-speech tagging POS tagging),自动词性赋码标注技术,自动词性赋码器有Brill POS tagger, CLAWS, TreeTagger等。

 

3. 形符、类符、类符/形符比

形符 token 相当于日常说的“词”,

类符 type 指不重复计算的形符数。

如 Rose is a rose is a rose is a rose. 此句有10个形符,3个类符(rose, is ,a )。

形次比 TTR=type-token ratio= (3/10)*100%=30

标准化类符/形符比 standardized TTR : 较为可靠的词汇密度测量工具。具体算法见P9.

 

4. 概率 probability 与频率 frequency

频率 frequency :标准化频数。

频数 frequencies or coccurences 标准化前的频数 

***** 频率对语料库研究至关重要,语料库相关研究中的对比最终常落实到频率的对比,语料库内部词汇或短语的比较和两个乃至更多语料库间比较最终往往是频率的比较。如在同一语料库中man / woman哪个词用得多?

***** 在基于语料库的研究中,我们常常某个或某些词、短语或其他语言单位在两个语料库中的出现频数参照两个语料库的容易通过卡方检验或其他统计方法进行对比,依此来确定两个语料库在特定语言单位的使用上是否存在显著差异。(关于显著性差异及假设检验,参见李绍山《语言研究中的统计学》P86)

 

5. 索引、索引工具和索引行(第三章详细介绍索引工具的使用方法和索引行的解读方法)

索引concordance, 又称为KWIC,key word in context 语境中的关键词,

索引软件 concordancer

检索词search word,又称节点 node

三类索引工具:A。通用索引工具,一般单机运行,如WordSmith Tools, AntConc 及 Concordance

              B. 专用索引工具,即部分大语料库采用自己的索引工具,如BNC的配套索引工具Sara 及Xaria

              C. 基于网络的索引工具,必须在线运行, 一般用户不可选择自己的语料进行检索。

 

6. 搭配与类联接

搭配强度 collocability: 测量collocability 的方法有MI(mutual information), MI3, Z-score及对数似然率(log-likelihood)

类联接colligation:类联接所关注的“结伴关系”不再局限于词汇层面,而上升到词类乃至语法层面,如形容词经常与名词构成类联接。 类联接可以看成是搭配的更高层次,与语言的句法方面有密切关系。

 

7. 多词序列

多词序列 MWE(multiword expressions),又称多词单位 multiword units, 复现词组 recurrent word combinations, 与此相关的方法还有词块kixical chunks, 词簇word clusters, 预制语块 prefabs, 套语formulaic sequences, N元组n-grams等,是近来研究的热点。

研究多词序列的原因:孤立地研究词根本不能解决语言中的众多问题,而脱离词去研究语法似乎同样困难重重。因此在语料库语言学界,词的概念逐渐淡化。(语境角度研究语言

文中提供了提取多词序列的操作原理,但某一N元序列出现频率多意味着什么呢,该如何解释?

 

8. 语义韵semantic prosody

如在某一语料库中检索cause发现其后的宾语几乎都表示一些不好的结果,即cause一旦后接宾语,就往往产生一种不良的联想意义,此即为semantic prosody.(cause 作为动词本身似乎不带有什么褒贬色彩,词典中解释该词时也没考虑这一点)

 

9.正则表达式 (regular expressions, or regex, regexp) (难点)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/690009
推荐阅读
相关标签
  

闽ICP备14008679号