当前位置:   article > 正文

2021-06-30_nlp顶刊

nlp顶刊

3、NLP任务的一般流程

3.1、文本预处理

将所有字母转换为小写或大写
将数字转换为单词或删除数字
删除标点、重音符号和其他音调符号
删除空格
扩展缩写词
删除停止词、稀疏词和特定词
文本规范化

3.2、分词+词向量

  1. 给予词典匹配的分词方式
    优点:速度快、成本低
    缺点:适应性不强,不同领域效果差异大 基本思想是基于词典匹配,将待分词的中文文本根据一定规则切分和调整,然后跟词典中的词语进行匹配,匹配成功则按照词典的词分词,匹配失败通过调整或者重新选择,如此反复循环即可。代表方法有基于正向最大匹配和基于逆向最大匹配及双向匹配法
  2. 基于统计的分词方法
    优点:适应性较强
    缺点:成本较高,速度较慢 这类目前常用的是算法是 HMM、CRF、SVM、深度学习 等算法,比如stanford、Hanlp分词工具是基于CRF算法。以CRF为例,基本思路是对汉字进行标注训练,不仅考虑了词语出现的频率,还考虑上下文,具备较好的学习能力,因此其对歧义词和未登录词的识别都具有良好的效果。
  3. 基于深度学习
    优点:准确率高、适应性强
    缺点:成本高,速度慢 有人员尝试使用双向LSTM+CRF实现分词器,其本质上是序列标注,所以有通用性,命名实体识别等都可以使用该模型,其分词器字符准确率可高达97.5%。

中文分词工具
• Hanlp
• Stanford 分词
• ansj 分词器
• 哈工大 LTP
• KCWS分词器
• jieba
• IK
• 清华大学THULAC
• ICTCLAS
英文分词工具
• Keras
• Spacy
• Gensim
• NLTK

常用文本表示
离散表示(词袋模型)
one-hot向量
TF-IDF
n-gram
分布表示(word embedding)
固定词向量:同一个词不同背景下有相同的词向量
word2vec:
skip-gram
CBOW
fastText
glove
动态词向量(一词多义):同一个词不同背景下有不同的词向量
ELMO
bert
GPT
评测词向量好坏主要方法分为两种:内部测评(词类比)与外部测评(命名实体识别(NER))。词类比。通过评测模型在一些语义或语法类比问题上的余弦相似度距离的表现来评测词向量

3.3、模型构建

3.3.1 transform

这篇很不错,直接转起。完全图解自然语言处理中的Transformer——BERT基础(入门长文)_whieper的博客-CSDN博客

3.3.2 bert

GPT 采用了 Transformer 的 Decoder,而 BERT 采用了 Transformer 的 Encoder。GPT 使用 Decoder 中的 Mask Multi-Head Attention 结构,在使用 [u1, u2, …, u(i-1)] 预测单词 ui 的时候,会将 ui 之后的单词 Mask 掉。

4、其它

4.1、NLP领域的顶刊

ACLEMNLPNAACLCOLING 可以说是 NLP 领域的四大顶会。其中 ACL、EMNLP、NAACL都是一家的(均由 ACL 举办)。ACL 是 CCF 推荐A类国际学术会议,EMNLP 和 COLING 是B类,NAACL 则是C类。

4.2、NLP领域的数据集

转起

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/369680?site
推荐阅读
相关标签
  

闽ICP备14008679号