赞
踩
分三步
1、先分词
2、做BEMS标注,同时做词性标注
3、训练模型
1、对语料进行分词
拿到测试部的语料或者其他渠道的语料,先对语料进行分词,我刚刚开始是用NS分词的,等CRF模型训练好后,可以直接用CRF进行分词,分完词后要人工核对分词结果,将分词分得不正确的地方修改好
2、标注词性,标注BEMS
BEMS所说是中科院的提出一种标注,也有说BEIS的,hanlp用的是BEMS
B:开始
E:结束
M/I:中间
S:单独
BEMS标注已经写了一个方法generateCRF在SegAndSave.class中。
词性标注只能人工标注了。
3、训练
安装CRF++
./configure
make
make install
cd /CRF++-0.58/example/seg
执行crf++的crf_learn指令
../../crf_learn -f 3 -c 4.0 template train.data model -t
产生的model.txt就是我们要的文件,model二进制文件hanlp运行不起来
eg: 我想听周杰伦的夜曲
1)分词:我 想听 周杰伦 的 夜曲
2)BEMS和词性标注(每列用\t分隔开,一般键入tab键,windows的tab似乎有问题,可以参考用SegAndSave.class的generateSeg方法):
分词标注
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。