NLP-基础任务-分词算法：概述【成熟的第三方工具包：中文（jieba、哈工大LTP）、英文（NLTK、SpaCy、StanfordCoreNLP）】_ltp vs spacy

作者：神奇cpp | 2024-07-25 21:12:04

踩

ltp vs spacy

分词（tokenization）：英文通过空格或者标点符号，就可以将词分开；而中文的分词会涉及很多问题（未登录词问题、分词歧义问题、分词不一致问题），所以会有各种不同分词的算法。

一、文本处理：分词（tokenization）

tokenization就是通常所说的分词，分出的每一个词语我们把它称为token。

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道，在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符, 分词过程就是找到这样分界符的过程.

英文通过空格或者标点符号，就可以将词分开；而中文的分词会涉及很多问题（未登录词问题、分词歧义问题、分词不一致问题），所以会有各种不同分词的算法。

举个栗子:

工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作 

==> 

['工信处', '女干事', '每月', '经过', '下属', '科室', '都', '要', '亲口', '交代', '24', '口', '交换机', '等', '技术性', '器件', '的', '安装', '工作']
1
2
3
4
5

分词的作用：词作为语言语义理解的最小单元, 是人类理解文本语言的基础.

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/神奇cpp/article/detail/882018