赞
踩
2.文本分词
3.词性标注
4.移除停用词
NLTK 自定义stop_words 中文使用jieba将句子分词,然后去掉停用词
5.文本标准化(文本正则化) 1.拼写错误 2.词干提取 3.词形还原
拼写错误:英语-算法,最小编辑距离(更改后) autocorrect
词干提取:from nltk import stem stem.PorterStemmer
词性还原: WordNetLemmatizer() 配合词性标注,还原后将达到更优的效果
TextBlob是python的开元文本处理库,属于NLTK的扩展库,可以处理很多自然语言处理的任务。
6.文本翻译 实验使用python的Translate替换TextBlob的内置翻译引擎API,该引擎同样有翻译次数限制。
7.文本清洗和分词 结构化数据(表格)。半结构化数据(XML、JSON、HTML)
re 使用正则表达式匹配字母、数字,其他全部使用空格替换:re.sub([r'[^\s\w]|_])
8.ngram: 两种使用方法 from NLTK import ngrams from textblob import TextBlob
9.高级文本分词器:
10.NER命名实体识别,
1.分词 2.词性标注 3.实体识别
11.词义消歧
拼写相同的词在不同句子中有不同的含义,词的分类任务,词在特定的句子中属于哪个意思
Lesk算法 NLTK中的lesk模块
12.语句边界检测
from nltk import sent_tokenize 能够识别出真正是句子分割的 '.'
13.词袋模型
忽略词序,语法,句法信息,单纯词频
向量的维度有词袋的大小确定。。
sklearn 的CountVectorizer创建词袋
14.TF-IDF
TF单词频率
IDF逆文档频率,真正相关的单词在其他文档出现的频率应该很低
15.Jaccard相似度和余弦相似度
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。