当前位置:   article > 正文

数据挖掘与机器学习 -- 实验一+实验二_机器学习与数据挖掘实验

机器学习与数据挖掘实验

目录

实验一:数据挖掘算法初识

实验目的  

实验背景

实验原理

实验总结

实验二:Pandas

实验目的

实验背景

实验原理

实验总结

总结


实验一:数据挖掘算法初识

实验目的  

1.熟悉数据挖掘算法的理论基础
数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程 
2.数据挖掘算法流程
定义问题、建立数据挖掘库、分析数据、准备数据、建立模型、评价模型和实施 
3.经典算法
数据挖掘的算法主要包括神经网络法、决策树法、关联规则法

实验背景

在互联网发展的早期,虽然每天也会产生很多新的数据,但是数据量相对而言还可以用人力分析的方法来处理,并且对于固定的某个站点和角度去切入的话,所需要处理的数据量就更少了。
随着互联网的飞速发展,每天产生的全新数据越来越多,并且呈指数态势上升,大量的数据中势必蕴含着大量有价值的信息,如果能抽取出这些信息,那么对于企业的发展和社会的发展都将大有裨益,在这个背景之下,很多数据挖掘处理方法应运而生。
数据挖掘即使用计算机工具从海量的数据中挖掘出有价值的模式和规律,并用这些模式和规律去预测和指导未来的行为。在当今的互联网背景之下,最为常用的数据挖掘算法有频繁模式挖掘、聚类分析、决策树和贝叶斯网络等 。

实验原理

Mining大数据挖掘平台是一款基于组件的数据挖掘,机器学习和数据分析的工具。它包括一系列可视化、探索、预处理和建模组件。
除了以python模块使用之外,Mining大数据挖掘平台还提供了GUI,可以用预先定义好的多种模块组成工作流来完成复杂的数据挖掘工作。

实验总结

数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。 
数据挖掘中通常涉及到四种任务:分类:将熟悉的结构概括为新数据的任务;聚类:在数据中以某种方式查找组和结构的任务,而不需要在数据中使用已注意的结构;关联规则学习:查找变量之间的关系;回归:旨在找到一个函数,用最小的错误来模拟数据。 
Mining数据挖掘平台支持多种高效实用的机器学习算法,包含了分类、回归、聚类、预测、关联,5大类机器学习的成熟算法。其中包含了多种可训练的模型:逻辑回归、决策树、随 机森林、朴素贝叶斯、支持向量机、线性回归、K均值、DBSCAN、高斯混合模型
除提供主要算法和建模功能外,Mining数据挖掘平台还提供了必不可少的数据预处理功能,包括字段拆分、行过滤与映射、列选择、随机采样、过滤空值、合并列、合并行、JOIN、行选择、去除重复值、排序、增加序列号、增加计算字段等。

实验二:Pandas

实验目的

1.了解Pandas模块的数据结构 pandas是基于Numpy构建的,pandas的两个主要数据结构:Series和DataFrame (1)Series是一种类似于一维数组的对象,由数据和数据标签(索引)组成,通过Series的values和index属性可以获取数值和索引。 (2)DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型。DataFrame既有行索引也有列索引,可以看成是Series组成的字典(共用同一个索引)
2.使用Pandas对数据进行分析使用Pandas导入数据、使用Pandas进行DataFrame检索、标签检索 。

实验背景

 Pandas 是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发team继续开发和维护,属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。 Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis)。panel data是经济学中关于多维数据集的一个术语,在Pandas中也提供了panel的数据类型

实验原理

Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。

实验总结

 Pandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。 
同时它的两大数据结构Series和DataFrame :
 Series是一种类似于一维数组的对象,是由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。仅由一组数据也可产生简单的Series对象。 
 DataFrame是Pandas中的一个表格型的数据结构,包含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型等),DataFrame即有行索引也有列索引,可以被看做是由Series组成的字典。 
dataFrame.corr()方法的主要任务是查找DataFrame中所有列的成对关联。如果存在任何空值, 它将自动被排除。它还会忽略DataFrame中的非数字数据类型列。


总结

以上就是今天要讲的内容,本文仅仅简单介绍了数据挖掘的实验内容。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/706003
推荐阅读
相关标签
  

闽ICP备14008679号