当前位置:   article > 正文

NLP常见项目领域(算法思路)_nlp项目

nlp项目

0、补充链接:

           NLP领域基本名词、算法   、 问答系统的常见技术          

一、QA问答系统

  1. DeepLearning:
  2. ① seq2seq + attention
  3. ② transformer、bert

二、语义分析、语义匹配

  1. 1、基于规则模板:
  2. ① booststraping ------- 召回率和精确率都不错,需要人工干涉,是一种成熟的技术
  3. https://blog.csdn.net/qq_16555103/article/details/103792301 -----信息抽取(booststraping、深度学习..)
  4. 2、依存句法分析、语义角色标注 ------- 提取三元组,精确率较高,因此比较适合做比较狭窄的领域,比如:买票查询
  5. 3、基于机器学习的算法:
  6. ① doc2vec、LDA、LSA、word2vec

三、机器翻译

  1. DeepLearning:
  2. ① seq2seq + attention
  3. ② transformer、bert

四、情感分析

        三种方式: 情感分析

五、意图识别

  1. 1、基于规则模板
  2. ① 规则模板解析 (先找领域 命中模板 意图识别 与交互完善信息;eg:从...到...的...票;需要交互完善‘时间’信息 )
  3. 2、DeepLearning:
  4. ① rnn(LSTM) + attention
  5. ② bert 网络

六、命名实体识别 NER

  1. 1、机器学习:
  2. ① bioes ------ HMM/CRF
  3. 2、deeplearning:
  4. ① LSTM + CRF ----- 理解:LSTM 用于提取句子的特征,用 CRF 的viterbi算法来代替softmax作为loss层。
  5. 原因如下:softmax分类时不能考虑到上下文的关系进行分类(尽管LSTM提取特征考虑序
  6. 列的时序信息),而CRF的viterbi算法预测分类时 可以考虑相邻上下的关联。
  7. ② transformer 、 bert
  8. =====================================================================================================
  9. 实体命名识别常见的实体三大类、七小类:
  10. 三大类:
  11. 实体类、时间类、数字类
  12. 七小类
  13. 人名、地名、机构名、时间 ...
  14. 1、NER系统识别内容:
  15. ① 命名实体:根据业务某个特殊领域的专业名词
  16. ② 实体修饰:实体修饰虽说不是名词,但是NER系统也要抽取出来。例如:程度词、否定词...
  17. 例:我 好像有一点 头痛。
  18. 如果是医疗实体命名识别,其中修饰词:‘好像有一点’ 提取是至关重要的,它大程度会影响后续模型判别结果。
  19. ③ 实体关系:

七、文本分类

  1. 1、短文本(50 单词 以内)
  2. 1.1 机器学习:
  3. ① 特征工程 + KNN、SVM、LR、贝叶斯(多项式朴素贝叶斯)
  4. ② doc2vec + 机器学习分类算法
  5. 1.2 深度学习:
  6. ① LSTM/双向LSTM/GRU 分类 --------- 模型优化: LSTM + attention
  7. ② transformer、bert
  1. 2、长文本(大于 50单词)
  2. DeepLearning:
  3. ① bert 分类 bert网络可以解决 512个时刻的序列
  4. ② textCNN + LSTM

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/455561
推荐阅读
相关标签
  

闽ICP备14008679号