赞
踩
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
提示:这里可以添加本文要记录的大概内容:
语料库有的是标记过的(annotated),意味着文本或文档已经标记出监督学习算法的正确响应(例如,用于构建检测垃圾邮件的过滤器),有的则是未标记(unannotated)的,可用于主题建模和文档聚类(例如,探索文本随时间推移潜在主题的变化)。
语料库可分解为文档或单个文档。语料库包含的文档大小各不相同,从推文到书籍都有可能,但它们都包含文本(或者元数据)和一组相关的看法。文件可进一步分成段落和语篇(discourse)单元,每个语篇单元往往表达一个单一的思想。段落可以进一步细分为句子,句子也是句法(syntex)的基本单位;完整的句子是在结构上比较合理的表达。句子由词和标点符号组成,词汇(Lexical)单元用来表达基本的意义,组合使用更为有效。最后,单词本身又由音节、因素、词缀和字符组成,这些单元只有在组成单词时才有意义。
一、浅谈语料库
1、语料和语料库
语料通常指在统计自然语言处理中实际上不可能观测到大规模的语言实例。所以人们简单地用文本作为替代,并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品。
语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记。其具备三个显著的特点:
⊚ 语料库中存放的是在语言的实际使用中真实出现过的语言材料。
⊚ 语料库以电子计算机为载体承载语言知识的基础资源,但并不等于语言知识。
⊚ 真实语料需要经过加工(分析和处理),才能成为有用的资源。
2、语料库语言学
语料库语言学的研究范畴:主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言教学、语言定量分析、词汇研究、词语搭配研究、词典编制、语法研究、语言文化研究、法律语言研究、作品风格分析、自然语言理解、机器翻译等方面的应用。
语料库是为一个或者多个应用目标而专门收集的,有一定结构的、有代表的、可被计算机程序检索的、具有一定规模的语料集合。本质上讲,语料库实际上是通过对自然语言运用的随机抽样,以一定大小的语言样本来代表某一研究中所确定的语言运用的总体。
中文语料库
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。