赞
踩
百度百科:Python是一种计算机程序设计语言。是一种面向对象的动态类型语言
即:计算机程序设计语言 面向对象 动态
百度百科: 用适当的统计分析方法对收集来的大量数据进行分析,为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
即:用统计分析方法研究数据并概括总结的过程。
书: 从海量数据中利用相关算法挖掘出隐含的,先前未知的,对决策者有潜在价值的关系,模式和趋势,这些也称为知识,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法,工具和过程。
百度百科: 一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。
即:挖掘数据中隐藏的知识并建立模型,提供支持带有预测性质决定的策略的方法和工具的过程
==============================================================
结论:信息增速>>分析能力>执行能力
==============================================================
基本: 利用方法帮助提取数据中蕴含的商业价值、提高企业竞争力。
方法{
分类与预测(有目标的进行分类预测,根据要得到的目标内容,通过该属性分类即可)
聚类分析(数据本身结构特点分类,使一类中的差异值最小)
关联规则(相互的关联关系,有这个的前提下大概率出现那个)
时序模式(事物的延续性和随机性预测事物发展)
偏差检测
智能推荐…
}
0定义挖掘目标
1-2数据取样
2-3数据探索
3-4数据预处理
4-5挖掘建模
5-1模型评价
1目标定义(任务理解 目标确定)
2数据采集(建模抽样 质量把控 实时采集)
3数据整理(探索、清洗、变换)
4构建模型(模式发现 构建模型 验证模型)
5模型评价(设定评价标准 多模型对比 模型优化)
6模型发布(模型部署、模型重构)
弄清用户需求,定好挖掘目标
与目标相关的样本数据子集
1.抽取标准:相关性 可靠性 有效性 ※质量关:完整性 有效性
1.抽样方法:
探索数据是否达到了要求 有没有规律 可否分类 等 (需要进行哪些预处理)
数据挖掘的质量不会超过抽取样本的
噪声不完整不一致数据进行处理
考虑本次建模属于哪类问题
选用哪种算法进行建模
数据挖掘: 目标 取 分析 处理 选择建模 评价
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。