赞
踩
《语料库应用教程》梁茂成 李文中 许家金著 外语教学与研究出版社 2011年1月
第一部分 语料库语言学基本知识与语料库基本操作
第一章 语料库语言学基本知识
一 基本概念
1. 文本:plain text 纯文本
2. 标注 annotation
3. 形符、类符、类符/形符比
形符 token 相当于日常说的“词”,
类符 type 指不重复计算的形符数。
如 Rose is a rose is a rose is a rose. 此句有10个形符,3个类符(rose, is ,a )。
形次比 TTR=type-token ratio= (3/10)*100%=30
标准化类符/形符比 standardized TTR : 较为可靠的词汇密度测量工具。具体算法见P9.
4.
频率 frequency :标准化频数。
频数 frequencies or coccurences 标准化前的频数
***** 频率对语料库研究至关重要,语料库相关研究中的对比最终常落实到频率的对比,语料库内部词汇或短语的比较和两个乃至更多语料库间比较最终往往是频率的比较。如在同一语料库中man / woman哪个词用得多?
*****
5. 索引、索引工具和索引行(第三章详细介绍索引工具的使用方法和索引行的解读方法)
索引concordance, 又称为KWIC,key word in context 语境中的关键词,
索引软件 concordancer
检索词search word,又称节点 node
三类索引工具:A。通用索引工具,一般单机运行,如WordSmith Tools, AntConc 及 Concordance
6. 搭配与类联接
搭配强度 collocability: 测量collocability 的方法有MI(mutual information), MI3, Z-score及对数似然率(log-likelihood)
类联接colligation:类联接所关注的“结伴关系”不再局限于词汇层面,而上升到词类乃至语法层面,如形容词经常与名词构成类联接。 类联接可以看成是搭配的更高层次,与语言的句法方面有密切关系。
7. 多词序列
多词序列 MWE(multiword expressions),又称多词单位 multiword units, 复现词组 recurrent word combinations, 与此相关的方法还有词块kixical chunks, 词簇word clusters, 预制语块 prefabs, 套语formulaic sequences, N元组n-grams等,是近来研究的热点。
研究多词序列的原因:孤立地研究词根本不能解决语言中的众多问题,而脱离词去研究语法似乎同样困难重重。因此在语料库语言学界,词的概念逐渐淡化。(语境角度研究语言)
文中提供了提取多词序列的操作原理,但某一N元序列出现频率多意味着什么呢,该如何解释?
8. 语义韵semantic prosody
如在某一语料库中检索cause发现其后的宾语几乎都表示一些不好的结果,即cause一旦后接宾语,就往往产生一种不良的联想意义,此即为semantic prosody.(cause 作为动词本身似乎不带有什么褒贬色彩,词典中解释该词时也没考虑这一点)
9.正则表达式 (regular expressions, or regex, regexp) (难点)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。