当前位置: article > 正文

hanlp 训练模型_NLP之CRF分词训练（六）

作者：Monodyee | 2024-06-11 04:51:06

踩

hanlp训练领域模型

分三步

1、先分词

2、做BEMS标注，同时做词性标注

3、训练模型

1、对语料进行分词

拿到测试部的语料或者其他渠道的语料，先对语料进行分词，我刚刚开始是用NS分词的，等CRF模型训练好后，可以直接用CRF进行分词，分完词后要人工核对分词结果，将分词分得不正确的地方修改好

2、标注词性，标注BEMS

BEMS所说是中科院的提出一种标注，也有说BEIS的，hanlp用的是BEMS

B：开始

E：结束

M/I：中间

S：单独

BEMS标注已经写了一个方法generateCRF在SegAndSave.class中。

词性标注只能人工标注了。

3、训练

安装CRF++

./configure

make

make install

cd /CRF++-0.58/example/seg

执行crf++的crf_learn指令

../../crf_learn -f 3 -c 4.0 template train.data model -t

产生的model.txt就是我们要的文件,model二进制文件hanlp运行不起来

eg: 我想听周杰伦的夜曲

1)分词：我想听周杰伦的夜曲

2)BEMS和词性标注(每列用\t分隔开,一般键入tab键，windows的tab似乎有问题，可以参考用SegAndSave.class的generateSeg方法):

分词标注

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Monodyee/article/detail/701786