赞
踩
语料库(corpus):用于存放语言数据的文件(语言数据库)。
语料库语言学已经成为语言研究的主流。基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。
语料库语言学研究的内容:
语料库的建设与编纂(最重要)
语料库的加工和管理技术
语料库的使用
==按内容构成和目的划分 ==
异质(heterogeneous)语料库:最简单的语料收集方法,没有事先规定和选材原则。
异质(heterogeneous)语料库:最简单的语料收集方法,没有事先规定和选材原则。同一个领域或者同一个食材的!
系统性(systematic)语料库:充分考虑语料的动态和静态问题、代表性和平衡问题以及语料库的规模等问题。
专用(specialized)语料库:如:北美的人文科学语料库。
按语言种类划分
单语的
双语的或多语的:篇章对齐 / 句子对齐 / 结构对齐
是否标注?
生语料和熟语料
语料采集的七项原则:语料的真实性、可靠性、科学性、代表性、权威性、分布性和流通性。其中,语料的分布性还要考虑语料的科学领域分布、地域分布、时间分布和语体分布等。
平衡语料库:着重考虑语料的代表性与平衡性。
平行语料库:一种是指在同一种语言的语料上的平行,例如,“国际英语语料库”,共有20个平行的子语料库,分别来自以英语为母语或官方语言和主要语言的国家,如英国、美国、加拿大、澳大利亚、新西兰等。其平行性表现为语料选取的时间、对象、比例、文本数、文本长度等几乎是一致的。建库的目的是对不同国家的英语进行对比研究。另一种平行语料库是指在两种或多种语言之间的平行采样和加工,例如,机器翻译中的双语对齐语料库。
共时语料库 是为了对语言进行共时(同一时段)研究而建立的语料库。研究大树的横断面所见的细胞和细胞关系,即研究一个共时平面中的元素与元素的关系。
历时语料库:是为了对语言进行历时研究而建立的语料库。研究大树的纵剖面所见的每个细胞和细胞关系的演变,即研究一个历时切面中元素与元素关系的演化
布朗语料库 (Brown Corpus):
LLC口语语料库:
朗文语料库 (Longman Corpus):
宾夕法尼亚大学(UPenn)树库(Tree Bank):(http://www.ldc.upenn.edu/)
他还提出一系列具体措施的政策要点。
分词标注:他/PN 还/AD 提出/VV 一/CD 系列/M 具体/JJ 措施/NN 和/CC 政策/NN 要点/NN 。/PU
UPenn树库的扩展:
(1) PropBank (Proposition Bank)其基本观点认为:树库仅提供句子的句法结构信息,对于计算机理解人类语言是不够的。因此,PropBank 的目标是对原树库中的句法节点标注上特定的论元标记,使其保持语义角色的相似性。
(2) NomBank (Nominalization Bank):NomBank 是 PropBank 的孪生项目,它和PropBank 标注的都是同一批树库,区别在于NomBank标注的是树库中名词的词义和相关的论元信息。
(3) UPenn语篇树库:建造目标是开发一个标注语篇结构信息的大规模语料库,主要标注与语篇连通方式 (discourse connectives) 相关的一致关系(coherence relation)。标注信息主要包括连通方式的论元结构、语义区分信息,以及连通方式和论元的修饰关系特征(attributionrelated features) 等。
汉语篇章树库(CDTB):
布拉格依存树库 (Prague Dependency Treebank, PDT):目前已经建成三个语料库:捷克语依存树库、捷克语-英语依存树库和阿拉伯语依存树库.
北大计算语言学研究所开发的综合性语言知识库CLKB:综合性语言知识库(CLKB)涵盖词、词组、句子、篇章各单位和词法、句法、语义各层面,从汉语向多语言辐射,从通用领域深入到专业领域。CLKB是目前国际上规模最大且获得广泛认可的汉语语言知识资源.
台湾中研院平衡语料库(Sinica Corpus)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。