赞
踩
参考文章:一文看懂NLP里的分词(中英文分词区别+3 大难点+3 种典型方法);
文本分词处理NLP的基础,先通过对文本内容进行分词、文本与处理(无用标签、特殊符号、停用词、大写转小写)、向量化等操作,然后才能够作为各种算法的输入,分词一直是 NLP 的基础,但是现在也不一定了,不过在一些特定任务中,分词还是必要的。如:关键词提取、命名实体识别等,感兴趣的可以看看这篇论文:Is Word Segmentation Necessary for Deep Learning of Chinese Representations?
参考文档:
经分词后的文本通常包含很多冗余信息,因此需要进行数据清洗,具体包含:文本清洗(无用标签剔除、特殊符号剔除、停用词剔除、大小写转换等)和文本标准化(字符集的转换、单词的统一化、时间和日期的统一化);
在完成具体任务时,需要根据任务目标对文本数据进行清洗,保证冗余信息的剔除。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。