Spark做词性标注遇到的问题及解决方法_spark hmm 词性标注

作者：weixin_40725706 | 2024-05-13 17:39:25

踩

spark hmm 词性标注

在用spark做中文分词、词性标注的时候遇到了一些问题，记录一下场景及解决方法。

场景是这样的，我希望用spark做词性标注，这可以用jieba分词的POSTokenizer，本来只要集群的每个节点上的pyspark包路径都安装jieba就可以了。但问题在于，我需要用自定义的词典创建Tokenizer，目的是想令Tokenizer只切出词典中有的词，其他的词都过滤。起初的方案是在client 模式的driver program代码里用本地词典路径初始化Tokenizer，然后把这个Tokenizer对象绑定到需要传递给rdd.map的函数中，代码大概是

from functools import partial
from jieba import Tokenizer

def func(text, tokenizer):
    tokenizer.cut(text)
    ...

tokenizer = Tokenizer(local_dict_path)
func_bind_tokenizer = partial(func, tokenizer=tokenizer)

rdd.map(func_bind_tokenizer)1
2
3
4
5
6
7
8
9
10
11

不过这种方法是行不通的，原因是spark需要把

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/weixin_40725706/article/detail/564726