赞
踩
语料库(corpus)就是存放语言材料的仓库(语言数据库),基于语料库进行语言学研究–语料库语言学(corpus linguistics)。
两种含义:一种是指在同一种语言的语料上的平行,例如,“国际英语语料库”,共有20个平行的子语料库,分别来自以英语为母语或官方语言和主要语言的国家,如英国、美国、加拿大、澳大利亚、新西兰等。其平行性表现为语料选取的时间、对象、比例、文本数、文本长度等几乎是一致的。建库的目的是对不同国家的英语进行对比研究。
共时语料库是为了对语言进行共时(同一时段)研究而建立的语料库。研究大树的横断面所见的细胞和细胞关系,即研究一个共时平面中的元素与元素的关系。
历时语料库是为了对语言进行历时研究而建立的语料库。研究大树的纵剖面所见的每个细胞和细胞关系的演变,即研究一个历时切面中元素与元素关系的演化。
知识库是以描述性方法来存储和管理知识的机构,由知识和知识处理机构行成一个知识域
开发目的:解决词典中同义信息的组织问题
研究从自然语言空间到语言概念空间的映射:
熟语料库指在自然语言单位上添加人工的标签标注,如经过分词、词性标注、命名实体识别、依存句法标注形成的语料。
生语料库指直接收集而未经加工形成的语言资源集,如常见的微博语料,新闻语料等。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。