当前位置:   article > 正文

NLP-基础任务-分词算法:概述【成熟的第三方工具包:中文(jieba、哈工大LTP)、英文(NLTK、SpaCy、StanfordCoreNLP)】_ltp vs spacy

ltp vs spacy

分词(tokenization):英文通过空格或者标点符号,就可以将词分开;而中文的分词会涉及很多问题(未登录词问题、分词歧义问题、分词不一致问题),所以会有各种不同分词的算法。

一、文本处理:分词(tokenization)

tokenization就是通常所说的分词,分出的每一个词语我们把它称为token

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符, 分词过程就是找到这样分界符的过程.

英文通过空格或者标点符号,就可以将词分开;而中文的分词会涉及很多问题(未登录词问题、分词歧义问题、分词不一致问题),所以会有各种不同分词的算法。

举个栗子:

工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作 

==> 

['工信处', '女干事', '每月', '经过', '下属', '科室', '都', '要', '亲口', '交代', '24', '口', '交换机', '等', '技术性', '器件', '的', '安装', '工作']
  • 1
  • 2
  • 3
  • 4
  • 5

分词的作用:词作为语言语义理解的最小单元, 是人类理解文本语言的基础.

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/神奇cpp/article/detail/882018
推荐阅读
相关标签
  

闽ICP备14008679号