当前位置:   article > 正文

nlp四大任务(分类、匹配、序列标注、文本生成)集成项目

文本序列任务和生成任务的区别

介绍


 

  1. 本项目支持的NLP任务包括 分类、匹配、序列标注、文本生成等.
  2. - 对于分类任务,目前支持多分类、多标签分类,通过选择不同的loss即可。
  3. - 对于匹配任务,目前已支持交互模型和表示模型。
  4. - 对于NER任务,目前已支持rnn+crf,idcnn+crf以及bert+crfgit地址:https://github.com/zhufz/nlp_research

数据


 

  1. 训练数据(目前data下均内置了样例数据):
  2. 1)对于分类任务的数据使用csv格式,csv头部包括列名‘target’和‘text’;
  3. 2)对于匹配任务的数据使用csv格式,csv头部包括列名‘target’,‘text’ 或者 ‘target’,‘text_a’,‘text_b’
  4. 3)对于NER任务的数据,参考"data/ner/train_data",或者使用其它格式的数据的话,修改task/ner.py中的read_data方法即可。
  5. 预训练数据(目前在分类和匹配任务上已支持):
  6. - 如果使用到bert作为预训练(直接下载google训练好的模型即可),直接运行"sh scripts/prepare.sh"
  7. - 如果使用elmo作为预训练,需要准备一份corpus.txt训练语料放在language_model/bilm_tf/data/目录下
  8. 然后执行指令进行预训练:
  9. cd language_model/bilm_tf
  10. sh start.sh

快速开始


 

  1. [依赖]
  2. 环境:python3+tensorflow 1.10(python2.7已支持)
  3. pip3 install --user -r requirements.txt
  4. 各类任务的参数定义在conf/model/内的以任务名命名的yml文件中"conf/model/***.yml"
  5. 目前已支持的常见任务如下:
  6. [分类]
  7. 1.生成tfrecords数据,训练:
  8. python3 run.py classify.yml mode=train
  9. 或者直接使用脚本:
  10. sh scripts/restart.sh classify.yml
  11. 2.测试:
  12. 单个测试:python3 run.py classify.yml model=test_one
  13. [匹配]
  14. 1.生成tfrecords数据,训练:
  15. python3 run.py match.yml mode=train
  16. 或者直接使用脚本:
  17. sh scripts/restart.sh match.yml
  18. 2.测试:
  19. 单个测试:python3 run.py match.yml model=test_one
  20. [序列标注]
  21. ...
  22. sh scripts/restart.sh ner.yml
  23. [翻译]
  24. ...
  25. sh scripts/restart.sh translation.yml

 

模块


 

  1. 1. encoder
  2. cnn
  3. fasttext
  4. text_cnn
  5. dcnn
  6. idcnn
  7. dpcnn
  8. vdcnn
  9. rnn
  10. rcnn
  11. attention_rnn
  12. capsule
  13. esim
  14. han
  15. matchpyramid
  16. abcnn
  17. transformer
  18. 2. common
  19. loss
  20. attention
  21. lr
  22. ...
  23. 3. utils
  24. data process

 

转载于:https://www.cnblogs.com/zhufz/p/11331913.html

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Guff_9hys/article/detail/784215
推荐阅读
相关标签
  

闽ICP备14008679号