当前位置:   article > 正文

stanfordnlp使用自定义分词分句_stanford corenlp 自定义分词器

stanford corenlp 自定义分词器

最近做实验需要用到stanfordnlp工具构造dependency tree,我的数据是已经分好词的,但是用stanfordnlp跑了之后,发现它自己重新分的词与原始分词不符,就会导致误差和一系列麻烦,所以着手修改源码。
stanfordnlp使用方法见链接:https://stanfordnlp.github.io/stanfordnlp/installation_usage.html
要求python>3.6,不然会报错。

debug调试过程中,发现源码中提供了pretokenize这个参数,
在这里插入图片描述
在这里插入图片描述
但是没有对外接口,所以在config部分修改一下接口就ok啦。
改动core.py,添加一个tokenize_pretokenized参数即可。

    def __init__(self, processors=DEFAULT_PROCESSORS_LIST, lang='en', models_dir=DEFAULT_MODEL_DIR, treebank=None,
                 use_gpu=True,tokenize_pretokenized=False, **kwargs):
        shorthand = default_treebanks[lang] if treebank is None else treebank
        config = build_default_config(shorthand, models_dir)
        config
  • 1
  • 2
  • 3
  • 4
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/805064
推荐阅读
相关标签
  

闽ICP备14008679号