赞
踩
将所有字母转换为小写或大写
将数字转换为单词或删除数字
删除标点、重音符号和其他音调符号
删除空格
扩展缩写词
删除停止词、稀疏词和特定词
文本规范化
中文分词工具
• Hanlp
• Stanford 分词
• ansj 分词器
• 哈工大 LTP
• KCWS分词器
• jieba
• IK
• 清华大学THULAC
• ICTCLAS
英文分词工具
• Keras
• Spacy
• Gensim
• NLTK
常用文本表示
离散表示(词袋模型)
one-hot向量
TF-IDF
n-gram
分布表示(word embedding)
固定词向量:同一个词不同背景下有相同的词向量
word2vec:
skip-gram
CBOW
fastText
glove
动态词向量(一词多义):同一个词不同背景下有不同的词向量
ELMO
bert
GPT
评测词向量好坏主要方法分为两种:内部测评(词类比)与外部测评(命名实体识别(NER))。词类比。通过评测模型在一些语义或语法类比问题上的余弦相似度距离的表现来评测词向量
这篇很不错,直接转起。完全图解自然语言处理中的Transformer——BERT基础(入门长文)_whieper的博客-CSDN博客
GPT 采用了 Transformer 的 Decoder,而 BERT 采用了 Transformer 的 Encoder。GPT 使用 Decoder 中的 Mask Multi-Head Attention 结构,在使用 [u1, u2, …, u(i-1)] 预测单词 ui 的时候,会将 ui 之后的单词 Mask 掉。
ACL、EMNLP、NAACL 和 COLING 可以说是 NLP 领域的四大顶会。其中 ACL、EMNLP、NAACL都是一家的(均由 ACL 举办)。ACL 是 CCF 推荐A类国际学术会议,EMNLP 和 COLING 是B类,NAACL 则是C类。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。