当前位置:   article > 正文

基于pytorch的自然语言处理的一般步骤

基于pytorch的自然语言处理的一般步骤

第一步:获取语料

语料:简称”语言材料“,是构成语料库的基本单元。所以人们简单的用”文本“作为替代,并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品。我们把一个”文本“集合作为”语料库“

(Corpus)。当有几个这样的文本集合的时候,我们称之为语料库集合(Corpus)。

1、已有语料

纸质或电子文本资料需要电子化语料库。

2、网上下载、抓取语料。

国内外标准开放数据集,如:国内的中文汉语有搜狗语料、人民日报语料或者通过爬虫。

第二步:语料预处理

语料预处理大概会占到整个工作量的50%-70%。

基本经过:

(1)数据清洗。

语料清洗:在语料中找到感兴趣的内容,将不感兴趣、视为噪音的内容清洗删除。包括对于原始文本提取标题、摘要、正文等信息。对于爬虫,去除广告、标签、HTML、JS等代码以及注释。

常见数据清洗方式:人工去重、对齐、删除以及标注等,或者正则化提取内容、正则表达式匹配、根据词性以及命名实体提取、编写脚本或者代码批处理等。

(2)分词。

分词:将短文本以及长文本处理为最小单位粒度是词或者词语的经过。

常见方法:基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法以及基于正则化的分词方法,其中每种方法下面对应许多详细的方法。

难点:歧义识别和新词识别。如࿱

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/356124
推荐阅读
相关标签
  

闽ICP备14008679号