赞
踩
首先什么是数据挖掘?
举个例子来理解:你和你的同事同时去一家银行办信用卡,办卡之后银行的客服总是给你的同事打电话推荐新出的理财产品,基本不会给你打电话。为什么会出现这样的情况呢?你的同事平时更关注基金,国债等理财产品,所以银行在它的信息库中会经过一系列的分析操作,最后决定经常给你的同时打电话推荐理财产品。
在这个过程当中,数据挖掘占据了比重比较大的一部分。
数据挖掘是通过对大量的数据进行分析,以发现和提取隐含在其中的具有价值的信息和知识的过程。
从数据挖掘的角度看,都可以转换为五类问题:分类,聚类,回归,关联和推荐
分类和聚类是不一样的:
分类是进行匹配,比如>500人是大型企业
聚类是物以类聚,比如A,B近一些,他们聚成一类,C,D和A.B都比较远,但是他们两个比较近,所以他们聚成一类
更准确正式点说:
1.聚类分析是研究如何在没有训练的条件下把样本划分为若干类
在分类中,已知存在哪些类,即对于目标数据库中存在哪些类是知道的,要做的就是将每一条记录分别属于哪一类标记出来
2.聚类需要解决的问题是将已给定的若干无标记的模式聚集起来使之成为有意义的聚类,聚类是在预先不知道目标数据库到底有多少类的情况下,希望将所有的记录组成不同的类或者说聚类,并且使得在这种分类情况下,以某种度量(例如:距离)为标准的相似性,在同一聚类之间最小化,而在不同聚类之间最大化
与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据样本有类别标记。
那么大数据与数据挖掘之间存在什么关系?
如图所示:
1.大数据的存储方式:
1.1关系数据库,是建立在关系数据库模型基础上的数据库,借助于集合代数等概念和方法来处理数据库中的数据,同时也是一个被组织成一组拥有正式描述性的表格,该形式的表格作用的实质是装载着数据项的特殊收集体,这些表格中的数据能以许多不同的方式被存取或重新召集而不需要重新组织数据库表格。
1.2云存储是在云计算(cloud computing)概念上延伸和衍生发展出来的一个新的概念。云计算是分布式处理(Distributed Computing)、并行处理(Parallel Computing)和网格计算(Grid Computing)的发展
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。