赞
踩
语料:简称”语言材料“,是构成语料库的基本单元。所以人们简单的用”文本“作为替代,并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品。我们把一个”文本“集合作为”语料库“
(Corpus)。当有几个这样的文本集合的时候,我们称之为语料库集合(Corpus)。
纸质或电子文本资料需要电子化语料库。
国内外标准开放数据集,如:国内的中文汉语有搜狗语料、人民日报语料或者通过爬虫。
语料预处理大概会占到整个工作量的50%-70%。
(1)数据清洗。
语料清洗:在语料中找到感兴趣的内容,将不感兴趣、视为噪音的内容清洗删除。包括对于原始文本提取标题、摘要、正文等信息。对于爬虫,去除广告、标签、HTML、JS等代码以及注释。
常见数据清洗方式:人工去重、对齐、删除以及标注等,或者正则化提取内容、正则表达式匹配、根据词性以及命名实体提取、编写脚本或者代码批处理等。
(2)分词。
分词:将短文本以及长文本处理为最小单位粒度是词或者词语的经过。
常见方法:基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法以及基于正则化的分词方法,其中每种方法下面对应许多详细的方法。
难点:歧义识别和新词识别。如
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。