当前位置:   article > 正文

jieba库:Tokenizer()类详解:(五)tokenize分词_如何使用tokenizer.tokenize对一个batch的数据进行分词

如何使用tokenizer.tokenize对一个batch的数据进行分词

2021SC@SDUSC


官方的文档里测试已经很明确了,就不在这里赘述了,分析一下源码好了~


源码:

  1. def tokenize(self, unicode_sentence, mode="default", HMM=True):
  2. """
  3. Tokenize a sentence and yields tuples of (word, start, end)
  4. Parameter:
  5. - sentence: the str(unicode) to be segmented.
  6. - mode: "default" or "search", "search" is for finer segmentation.
  7. - HMM: whether to use the Hidden Markov Model.
  8. """
  9. if not isinstance(unicode_sentence, text_type):
  10. raise ValueError("jieba: the input parameter should be unicode.")
  11. start = 0
  12. if mode == 'default':
  13. for w in self.cut(unicode_sentence, HMM=HMM):
  14. width = len(w)
  15. yield (w, start, start + width)
  16. start += width
  17. else:
  18. for w in self.cut(unicode_sentence, HMM=HMM):
  19. width = len(w)
  20. if len(w) > 2:
  21. for i in xrange(len(w) - 1):
  22. gram2 = w[i:i + 2]
  23. if self.FREQ.get(gram2):
  24. yield (gram2, start + i, start + i + 2)
  25. if len(w) > 3:
  26. for i in xrange(len(w) - 2):
  27. gram3 = w[i:i + 3]
  28. if self.FREQ.get(gram3):
  29. yield (gram3, start + i, start + i + 3)
  30. yield (w, start, start + width)
  31. start += width

可以看到,该方法接收三个参数 unicode_sentence,mode,HMM,且后两个都有默认值。

第一部分的 if语句 用于判断unicode_sentence接收的实参是否为unicode编码的str,如果不是就报错。

第二部分就开始切分,(start用以记录单个词的起始位置),使用if else 语句决定使用的模式(default模式和search模式)。

如果参数 mode==‘default’,那么就是用默认模式,使用精确模式切分句子,然后遍历结果,把结果以及它在句子中的位置装在一个元组中返回给迭代器。

如果参数mode!=‘default’,那么使用搜索模式,使用精确模式切分句子,然后遍历结果,把结果中大于2和大于3的再次进行切分,可以成词的结果加上它的位置下标装成元组返回给迭代器,最后返回该值。

搜索模式的源码是不是看起来很眼熟,对,他就是 cut_for_search()的孪生兄弟。

详情参见这一篇

一模一样有没有~

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/329816
推荐阅读
相关标签
  

闽ICP备14008679号