赞
踩
书籍推荐:
Practical Natural Language Processing: A Comprehensive Guide to Building Real-World NLP Systems
一:名词认识
1 Segmentation (分割 )句号 逗号等标点符号 把句子分隔开
2 Tokenizing (标记化)
3 Stop words(停用词) 比如was are and in 等类型的词语
4 Stemming (提取词干)skipped skipping skips 都来自词语skip
5 Lemmatization (词型还原)are am is 都是be动词
6 speech tagging (词性)noum名词。vreb 动词。 preposition 介词
7 Named entity tagging(命名实体标记)
二:language modeling (n-gram RNN
作用:预测下一个单词(比如谷歌搜索 输入一些单词以后 会根据下一个单词出现的可能性提示想查找的内容)
RNN 模型的优缺点:
原始文本(raw data) __
分词(segmentation)____
清洗(cleaning)无用的标点符号 特殊符号 停用词
标准化(nomalization) stemming词干提取 lemmation 词型还原
特征提取(feature extraction) tf-idf word2vec
建模(modeling) 相似度算法 分类算法
文本预处理:<
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。