赞
踩
一个优秀的数据分析师,除了要掌握基本的统计学、数据库、数据分析方法、思维、数据分析工具技能之外,还需要掌握一些数据挖掘的思想,帮助我们挖掘出有价值的数据,这也是数据分析专家和一般数据分析师的差距之一。
数据挖掘主要分为分类算法,聚类算法和关联规则三大类,这三类基本上涵盖了目前商业市场对算法的所有需求。而这三类里又包含许多经典算法。市面上很多关于数据挖掘算法的介绍深奥难懂,今天就给大家用简单的大白话来介绍数据挖掘十大经典算法原理,帮助大家快速理解。
算法分类
连接分析:PageRank
关联分析:Apriori
分类算法:C4.5,朴素贝叶斯,SVM,KNN,Adaboost,CART
聚类算法:K-Means,EM
一、PageRank
当一篇论文被引用的次数越多,证明这篇论文的影响力越大。
一个网页的入口越多,入链越优质,网页的质量越高。
原理
网页影响力=阻尼影响力+所有入链集合页面的加权影响力之和
一个网页的影响力:所有入链的页面的加权影响力之和。一个网页对其他网页的影响力贡献为:自身影响力/出链数量。用户并不都是按照跳转链接的方式来上网,还有其他的方式,比如直接输入网址访问。所以需要设定阻尼因子,代表了用户按照跳转链接来上网的概率。比喻说明
1、微博
一个人的微博粉丝
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。