赞
踩
作者:宋莹
本文长度为10427字,建议阅读20+分钟
本文为你介绍数据挖掘的知识及应用。
随着互联网工具的发展,分享和协作的成本大大降低。我们每天用手机聊天、购物、刷短视频、看新闻等日常的不经意动作给互联网行业提供了体量庞大的数据。这些数据通常被收集、存放在大型数据存储库中,没有强有力的工具,理解它们已经远远超出了我们的能力。而数据挖掘技术的出现解决了这一问题。它可以从海量的数据中提取出有价值的信息,从而作为决策的重要依据。
柏拉图曾说过“需要是发明之母”,每一项新技术的诞生都是顺应了这个时代的发展。数据挖掘”也是信息技术自然演化的结果。如下表格展示了该演化过程。
数据清理(消除噪声和不一致数据)
数据集成(不同来源与格式的数据组合到一起)
数据选择(挖掘所需的数据)
数据变换(数据变换成适合挖掘的形式,如汇总,聚集操作)
数据挖掘(方法,建模)
模式评估(结果模型)
知识表示(可视化)
原则上讲,数据挖掘可以应用于任何类型的信息存储库及瞬态数据(如数据流),如数据库、数据仓库、数据集市、事务数据库、空间数据库(如地图等)、工程设计数据(如建筑设计等)、多媒体数据(文本、图像、视频、音频)、网络、数据流、时间序列数据库等。
数据科学家吴军老师在《数学之美》一书中强调数学之所以美,是因为数学的简单性。我们的计算机基础就是布尔代数,其运算元素只由0,1组成。虽然数学如此简单,但其在各个领域的作用却不容忽视。它可以帮助我们发现仅凭经验无法发现的规律,找到仅凭经验无法总结出来的办法。因此在这个大数据时代,以数学为基础的数据挖掘领域常常会被大家神话。
认为现在的数据体量足够大,支持的异构数据种类越来越多,信息的数据化程度越来越完善,分布式的框架也给大数据的深度挖掘提供了有力支持,数据挖掘结果也就会越来越精准。其实不然,虽然这些有力条件提高了数据预测能力,但是毕竟还有很多事物暂时还无法数据化。比如人的思维,同时还有互联网没有采集到的人们的日常活动等。这些未被采集的信息,会导致我们挖掘的结果有偏差,甚至完全不可用。并且单一化的数学工具挖掘出的结果通常都比较片面。因此就需要我们建立多元化思维,在进行挖掘的时候要按照“T”型结构。
所谓“T”型结构就是利用现如今的有利条件进行纵向深度挖掘,同时也要横向扩展多学科知识。未来的数据挖掘领域,绝不是单一的数学一门单一学科就能搞定,而是多学科结合,综合考虑得出结论。
图五:创建数据库链接
图六:数据库连接名
图十三:腾讯问卷原始文件截图
图十五:新建流程“1纸质问卷数据清洗过程”目录
图十六:纸质调查问卷部分内容
图十八:新建流程“1腾讯问卷数据清洗过程”目录
图十九:腾讯调查问卷部分内容
图二十一:新建流程“2.数据集成”目录
图二十二:流程“1纸质问卷数据清洗过程”结果
图二十三:流程“1腾讯问卷数据清洗过程”结果
图二十五:新建流程“3.数据选择”目录
图二十六:流程“2数据集成”结果
图二十八:新建流程“4.数据变换”目录
图二十九:流程“3数据选择”结果
其中孩子性别信息映射:
图三十一:新建流程“5离群点分析”目录
图三十二:流程“4数据变换”结果
图三十三:流程“5离群点分析”
图三十四:离群点分析结果
图三十五:离群点分析图表展示1
图三十六:离群点分析图表展示2
图三十八:新建流程“6处理离群点”目录
基础:
https://baike.baidu.com/item/%E5%9F%BA%E7%A1%80/32794
期望:
https://baike.baidu.com/item/%E6%9C%9F%E6%9C%9B/35704
图四十:新建流程“7决策树建模”目录
图四十一:流程“6处理离群点”结果
图四十二:流程“决策树建模”
图四十三:决策树模型运行结果
图四十四:决策树模型结果描述
决策树建模解读:
(1)“读取处理离群点后数据”的作用是将流程“6处理离群点”(在数据库questionnaire_deal表中存放)的结果读取出来。(Read Database控件)
(2)“数据类型转换”的作用是将要预测的study_or_not(空闲时间是否学习)字段的数据类型转换成字符型。(Numerical to Polynominal控件)
(3)“设置角色”的作用是将m_name(姓名)列的角色设置成ID唯一标识,并且将study_or_not(空闲时间是否学习)列设置成label标识(rapidminer中需要将预测列标识成label字段才可以执行流程)。(Set Role控件)
(4)“决策树模型”的作用是应用该模型对现有数据进行预测。如图“图四十三:决策树模型运行结果”是决策树模型的运行结果。(Decision Tree控件)
1.在Rapidminer中新建一个流程,名字叫“8决策树评估”。这个流程的主要目的是由于建模过程形成的众多结果,我们没有办法去判断哪个模型最符合现实的情况,因此,我们需要对所建的模型进行评估,通过评估结果来选择预测最准确的那个模型。具体情况如下所示:
图四十五:流程“8决策树评估”目录
图四十六:流程“8决策树评估”
图四十七:流程“8决策树评估”2
图四十八:模型评估控件参数设置
图五十:决策树模型运行结果
图五十一:决策树模型结果描述
图五十二:决策树评估中设置的角色
类别 | 中文值 | 转换值 |
study_or_not(工作\带娃的空闲时间是否考虑过学些专业知识提高自己的竞争力) | A.是 | 1 |
study_or_not(工作\带娃的空闲时间是否考虑过学些专业知识提高自己的竞争力) | B.否 | 2 |
m_import(作为女性,你认为工作和生活哪个更重要) | A.工作 | 1 |
m_import(作为女性,你认为工作和生活哪个更重要) | B.生活 | 2 |
m_import(作为女性,你认为工作和生活哪个更重要) | C.全都重要 | 3 |
m_import(作为女性,你认为工作和生活哪个更重要) | D.具体哪个重要也说不清 | 4 |
eduction(学历) | 初中 | 1 |
eduction(学历) | 高中 | 2 |
eduction(学历) | 中专 | 3 |
eduction(学历) | 大专 | 4 |
eduction(学历) | 职高 | 5 |
eduction(学历) | 大学本科 | 6 |
eduction(学历) | 本科 | 6 |
eduction(学历) | 硕士 | 7 |
eduction(学历) | 研究生 | 7 |
eduction(学历) | 无 | 0 |
通过图“图五十二:决策树评估中设置的角色”中我们可以看出,我们将study_or_not字段设置成了label标签属性,在Rapidminer中,我们把哪个指标设置成label属性,我们分析的就是哪个指标。也就是笔者想要分析的“工作\带娃的空闲时间是否考虑过学些专业知识提高自己的竞争力”。并且通过上面的映射表可以看出study_or_not等于1是会利用业余时间学习的人,等于2是业余时间不学习的人。
作者简介
宋莹,数据派研究部志愿者,毕业渤海大学信息与计算科学专业,现就职深圳长亮科技股份有限公司。投身于商业智能、数据分析及大数据领域7年多,对用数据模型解决实际问题有浓厚兴趣,希望结实志趣相投的伙伴。
数据派研究部介绍
数据派研究部成立于2017年初,以兴趣为核心划分多个组别,各组既遵循研究部整体的知识分享和实践项目规划,又各具特色:
算法模型组:积极组队参加kaggle等比赛,原创手把手教系列文章;
调研分析组:通过专访等方式调研大数据的应用,探索数据产品之美;
系统平台组:追踪大数据&人工智能系统平台技术前沿,对话专家;
自然语言处理组:重于实践,积极参加比赛及策划各类文本分析项目;
制造业大数据组:秉工业强国之梦,产学研政结合,挖掘数据价值;
数据可视化组:将信息与艺术融合,探索数据之美,学用可视化讲故事;
网络爬虫组:爬取网络信息,配合其他各组开发创意项目。
点击文末“阅读原文”,报名数据派研究部志愿者,总有一组适合你~
转载须知
如需转载,请在开篇显著位置注明作者和出处(转自:数据派THUID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。
未经许可的转载以及改编者,我们将依法追究其法律责任。
点击“阅读原文”加入组织~
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。