赞
踩
最近做实验需要用到stanfordnlp工具构造dependency tree,我的数据是已经分好词的,但是用stanfordnlp跑了之后,发现它自己重新分的词与原始分词不符,就会导致误差和一系列麻烦,所以着手修改源码。
stanfordnlp使用方法见链接:https://stanfordnlp.github.io/stanfordnlp/installation_usage.html
要求python>3.6,不然会报错。
debug调试过程中,发现源码中提供了pretokenize这个参数,
但是没有对外接口,所以在config部分修改一下接口就ok啦。
改动core.py,添加一个tokenize_pretokenized参数即可。
def __init__(self, processors=DEFAULT_PROCESSORS_LIST, lang='en', models_dir=DEFAULT_MODEL_DIR, treebank=None,
use_gpu=True,tokenize_pretokenized=False, **kwargs):
shorthand = default_treebanks[lang] if treebank is None else treebank
config = build_default_config(shorthand, models_dir)
config
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。