赞
踩
本人在自己实验室服务器上进行实现,供大家参考。
源码地址:
https://github.com/LeeSureman/Flat-Lattice-Transformer
运行环境的各类包版本
Python 3.7.8 blis 0.4.1 catalogue 1.0.0 certifi 2020.6.20 cffi 1.14.0 chardet 3.0.4 click 7.1.2 cymem 2.0.3 docopt 0.6.2 FastNLP 0.5.0 fitlog 0.3.2 Flask 1.1.2 idna 2.10 importlib-metadata 2.0.0 itsdangerous 1.1.0 Jinja2 2.11.2 joblib 0.16.0 MarkupSafe 1.1.1 mkl-fft 1.2.0 mkl-random 1.1.1 mkl-service 2.3.0 murmurhash 1.0.2 nltk 3.5 numpy 1.19.1 olefile 0.46 Pillow 7.2.0 pip 20.2.3 plac 1.1.3 preshed 3.0.2 prettytable 0.7.2 pycparser 2.20 pytz 2020.1 regex 2020.7.14 requests 2.24.0 setuptools 49.6.0.post20200917 six 1.15.0 spacy 2.3.2 srsly 1.0.2 thinc 7.4.1 torch 1.2.0 torchvision 0.4.0a0+6b959ee tqdm 4.49.0 urllib3 1.25.10 wasabi 0.8.0 Werkzeug 1.0.1 wheel 0.35.1 zipp 3.2.0
将预训练权重放在相对应的文件夹路径下
下面是数据集
/home/lgyao/Flat-Lattice-Transformer-master/remote-home/xnli/data/corpus/sequence_labelling/chinese_ner/ResumeNER
下面是预训练权重
/home/lgyao/Flat-Lattice-Transformer-master/remote-home/xnli/data/pretrain/chinese
在anaconda创建了自己的ner运行环境,首先进入环境:
source activate ner
cd Flat-Lattice-Transformer-master
python preprocess.py
cd V0 (without Bert) / V1 (with Bert)
python flat_main.py --dataset <dataset_name> (ontonotes, msra, weibo or resume)
如果要训练resume数据集,则直接
python flat_main.py --dataset resume
这部分出现的bug,debug的方法如下。
python flat_main.py --dataset <dataset_name> (ontonotes, msra, weibo or resume)
-bash: 未预期的符号 `newline’ 附近有语法错误
python flat_main.py --dataset ontonotes
还会遇到一个问题:
weibo数据集的命名和运行文件中的命名不一致,这个只要改成相同的即可。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。