赞
踩
目录
(1)数据挖掘是一个以数据为中心的,循序渐进的,螺旋式的数据探索过程。数据挖掘涉及业务理解、数据理解、数据准备、建立模型、方案评估、方案实施等多个阶段。
(2)数据挖掘是各种分析方法的集合。
(3)数据挖掘具有分析海量数据的能力。
(4)数据挖掘的最终目的是辅助决策。
1.有标签就是有监督学习,没有标签就是无监督学习,说的详细一点,有监督学习的目的是在训练集中找规律,然后对测试数据运用这种规律,而无监督学习没有训练集,只有一组数据,在该组数据集内寻找规律。
2. 无监督学习方法在寻找数据集中的规律性,这种规律性并不一定要达到划分数据集的目的,也就是说不一定要“分类”。比如,一组颜色各异的积木,它可以按形状为维度来分类,也可以按颜色为维度来分类。(这一点比监督学习方法的用途要广。如分析一堆数据的主分量,或分析数据集有什么特点都可以归于无监督学习方法的范畴) ,而有监督学习则是通过已经有的有标签的数据集去训练得到一个最优模型,像我们的CNN(卷积神经网络)模型都是运用了有监督学习去训练出最优的模型,利用这个最优的模型就可以对一些图像进行场景分类。
3.有监督学习要实现的目标是“对于输入数据X能预测变量Y”(有答案和方法的学)。而无监督学习要回答的问题是“从数据X中能发现什么”(自学)。
(基于变量类型的算法、基于抽象层次的方法、基于数据维度的方法、基于时间序列的方法 )典型算法有:AIS算法、Apriori算法、SETM算法、DHP算法、Partition算法、Sampling算法、FP-Growth算法。
划分法、层次法、密度法、网格方法、模型方法
决策树、K最近邻、支持向量机(SVM)、随机森林、朴素贝叶斯。
回归分析法
常用的数据挖掘工具有阿里云机器学习平台PAI、ASA、Stata、Python、SPSS、Weka、R语言和MATLAB等。
PAI起初是服务于阿里巴巴集团内部(例如淘宝、支付宝和高德)的机器学习平台,致力于让公司内部开发者更高效、简洁、标准地使用人工智能AI(Artificial Intelligence)技术。随着PAI的不断发展,2018年PAI平台正式商业化,目前已经积累了数万的企业客户和个人开发者,是中国云端机器学习平台之一。
PAI底层支持多种计算框架:
PAI的优势:
服务支持单独或组合使用。支持一站式机器学习,您只要准备好训练数据(存放到OSS或MaxCompute中),所有建模工作(包括数据上传、数据预处理、特征工程、模型训练、模型评估和模型发布至离线或在线环境)都可以通过PAI实现。
(全称STATISTICAL ANALYSIS SYSTEM,简称SAS)是一个模块化、集成化的大型应用软件系统。他由数十个专用模块构成,功能包括数据访问、数据存储及管理、应用开发、图形处理、数据分析、报告编制、运筹方法、计算经济学与预测等。SAS具有功能强大、统计方法其、全、新、使用简便、操作灵活、提供联机帮助功能等特点。
Stata是一套提供数据分析、数据管理以及绘制专业图表的完整及整合性统计软件。它提供许许多多的功能,包含线性混合模型、均衡、重复、反复及多项式普罗比模式.是用stata绘制的统计图形相当精美。Stata具有快速、精确、易用统计工具丰富、数据管理功能完整等特点。
Python是一种免费的开源语言,因医用性常常与R相提并论。但与R不同,Python学起来往往很容易上手,易于使用。许多用户发现可以在几分钟内开始构建数据,并进行极其复杂的亲和度分析。只要熟悉变量、数据类型、函数、条件、语句和循环等基本编程概念,最常见的业务用例数据可视化就很简单地实现。
IBM SPSS Modeler工具工作台适合处理文本分析等大型项目,其可视化界面非常有价值,它允许在不同编程的情况下生成各种数据挖掘算法。它可以用于异常检测、贝叶斯网络、CARMA、Cox回归以及使用多层感知器进行反向传播学习的基本神经网络。
Wake(怀卡托知识分析环境)是新西兰怀卡托大学开发的一套机器学习软件。该软件用Java编写。它还有一系列面向数据分析和预测建模的可视化工具和算法,附带图形用户界面。Wake支持几种标准数据挖掘任务,更具体地说是指数据预处理、聚类、分类、回归、可视化和特征选择。
R语言是用于统计、分析、图形表示和报告的编程语言和软件环境。R语言由Ross Ihaka 和Robert Gentleman 在新西兰奥克兰大学创建,目前由R语言开发核心团队开发。R语言是世界上最广泛使用的统计编程语言。
MATLAB是美国Mathworks公司出品的商业数学软件儿,用于算法开发、数据可视化、数据分析以及数据计算的高级技术计算语言和交互式环境,主要包括MATLAB和Simulink两大部分。
特征工程指的是把原始数据转变为模型的训练数据地过程,他的目的就是获取更好的训练数据特征,使得机器学习模型逼近这个上限。
1.第一阶段电子邮件阶段:20世纪70年代,随着美国信息高速公路的建设,网络信息技术每年几倍的速度增长,该阶段数据挖掘技术属于独立系统,支持一个或多个模型。
2.第二阶段20世纪90年代:Web技术的创新导致网络信息呈现爆炸式增长,很多企业处于粗放式营销模式,该阶段的数据挖掘技术已经成为可以集成数据库,系统支持多种挖掘模型同时运行。
3.第三阶段电子商务阶段:21世纪初,IBM、HP、Sun等技术厂商将Internet转换成为常用的商业信息网络,该阶段的数据挖掘技术可以对数据进行管理,同时集成了预言模型系统。
4.第四阶段全程电子商务阶段:SaaS软件服务模式的出现延长了电子商务产业链,原始数据挖掘结束成为一门独立的学科,该阶段的数据挖掘技术将移动数据以及各种计算设备的数据进行了有机融合。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。