赞
踩
自动分词就是将用自然语言书写的文章、句段经计算机处理后,以词为单位给以输出,为后续加工处理提供先决条件。
例:
词根提取(stemming): 是抽取词的词干或词根形式(不一定能够表达完整语义)
原文:’ And I also like eating apple’
词根提取后:[‘and’,‘I’,‘also’,‘like’,‘to’,‘eat’,‘appl’]]
词形还原(lemmatization): 是把词汇还原为一般形式(能表达完整语义)。如将"drove"处理为"drive"。
原文:’ And I also like eating apple’
词根提取后:[‘And’,‘I’,‘also’,‘like’,‘to’,u’eat’,‘apple’]]
标注规范详见https://blog.csdn.net/eli00001/article/details/75088444?locationNum=1&fps=1
句法分析(Syntactic analysis): 其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系。
为了便于计算文档之间的相似度,需把文档转成统一空间的向量。
例:
假设有下面三个文档:
D1: ‘Jobs was the chairman of Apple Inc, and he was very famous’,
D2: ‘I like to use apple computer’,
D3: ‘And I also like to eat apple’
余弦相似度详见:https://blog.csdn.net/u012160689/article/details/15341303
背景:特征向量里某些高频词在文集内其他文档里面也经常出现。他们往往太普遍,对区分文档起的作用不大。
例如:
D1: ‘Jobs was the chairman of Apple Inc’,
D2: ‘I like to use apple computer’,
这两个文档都是关于苹果电脑的,则词条"apple"对分类意义不大。因此有必要抑制那些在很多文档中都出现了的词条的权重。
在tf-idf 模式下,词条t在文档d中的权重计算为:
w(t) = tf(t,d) * idf(t)
其中,tf(t,d)表示为词条t在文档d中出现的频率,idf(t)表示与包含词条t的文档数目成反比(inverse document frequency)
TF = 在某一类词条中w出现的次数/该类中所有的词条数目
IDF = log(语料库中的文档总数 / 包含词条w的文档数 + 1 )
例:
tf-idf详见:https://blog.csdn.net/asialee_bird/article/details/81486700
特征选择是选择对于学习任务(如分类问题)有帮助的若干特征。
作用
1)降维以提升模型的效率;
2)降低学习任务的难度;
3)增加模型的可解释性;
特征选择的角度:
特征是否发散:对于不发散的特征,样本在其维度上差异性较小。
特征与目标的相关性:应当优先选择与目标相关性高的特征。
几种常见的特征选择方法:
方差选择法
Pearson相关系数法
基于森林的特征选择法
递归特征消除法
———— 内容来源:中国大学MOOC 《深度学习基础》 哈尔滨工业大学 刘远超
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。