当前位置:   article > 正文

读书笔记之大数据基础

读书笔记之大数据基础

1、数据:对客观事物的逻辑归纳,用符号、字母等方式对客观事物进行直观描述,是进行各种统计、计算、科研或技术设计的数值,也是表达知识的字符集合,是一种信息的表现形式。
2、数据的最小单位是bit,8bit=1Byte,单位顺序依次是:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB
3、信息:对客观世界中的各种事物的运动状态和变化的反映,是客观事物之间互相联系和相互作用的表征,表现的是客观事物运动状态和变化的实质内容。信息与数据不可分割,数据是信息的表达,信息是数据的内涵。信息资源的三大要素是:信息生产者、信息、信息技术。
4、①结构化数据:存储在结构化数据库中的数据,可以用二维表结构来逻辑表达实现的数据,信息经过分析后可分解成多个互相关联的组成部分,各组成部分间有明确的层次结构,使用和维护通过数据库进行管理;
非结构化数据:不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档、文本、图片、各类报表、图像等。非结构化数据库指数据库的变长记录由若干不可重复和可重复的子字段组成,更适合处理非结构化数据;
半结构化数据:介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构化数据(如声音、图像等)之间的数据,一般是自描述的,数据的结构和内容混在一起。
5、大数据:指的是所涉及的资料量规模巨大,无法通过目前主流软件工具,在合理时间内进行撷取、管理、处理,并整理为帮助企业经营决策等具有积极目的的咨讯。大数据对象既可能是实际的、有限的数据集合,如某个政府部门或者企业掌握的数据库,也可能是虚拟的、无限的数据集合,如社交平台上的信息。
6、大数据的特性:体量大(Volume)、类别广(Variety)、速度快(Velocity)、真实性(Veracity)、价值(Value)
7、大数据可以做到的事情:诊断分析、预测分析、在位置元素箭寻找关联、规范化分析、监控发生的事件
大数据做不到的事情:预测确定的未来、找到一个创新的解决方案、找到问题定义模糊的解决方法
8、大数据的分类
按照数据分析的实时性:
(1)实时数据分析:一般用于金融、移动和互联网等行业,往往要求在数秒内返回上亿行数据的分析,从而达到不影响用户体验的目的。可以采用海量数据实时分析工具,采用传统关系型数据库组成并行处理集群,或者一些内存计算平台;
(2)离线数据分析:对于大多数反馈时间要求不是那么严苛的应用,比如离线统计分析、机器学习、搜索引擎的反向索引计算等,采用离线分析的方式,通过数据采集工具将日志数据导入专用的分析平台。
按照大数据的数据量
(1)内存级别:数据量不超过集群内存的最大值,采用这些内存数据库,将热点数据常驻内存之中,从而取得非常快速的分析能力,非常适合实时分析业务;
(2)海量级别:指的是对于数据库和商业智能产品已经完全失效或者成本过高的数据量。目前大多数采用Hadoop的HDFS分布式文件系统来存储数据,并使用MapReduce进行分析;
(3)商业智能(BI)级别:对于内存来说太大的数据量,一般可以放入传统的BI产品和专门设计的BI数据库之中进行分析。
9、大数据处理流程:采集(利用多个数据库来接收发自客户端的数据)——>统计/分析(利用分布式计算集群对所存储的海量数据进行普通的分析和分类汇总)——>导入/预处理(将来自前端的数据导入一个集中的大型分布式数据库或者分布式存储集群)——>数据挖掘(在现有数据基础上进行基于各种算法的计算,起到预测效果,从而实现一些高级别数据分析的需求)
10、大数据分析的方法理论
①预测性分析能力:数据挖掘可以让分析员更好地理解数据,预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性分析;
②数据质量和数据管理:通过标准化流程和工具对数据进行处理,可以保证得到一个预先定义好的高质量分析结果;
③可视化分析:数据可视化是数据分析工具最基本的要求,可以直观的展示数据;
④语义引擎:由于非结构化数据的多样性带来了数据分析的新挑战,需要一系列工具去解析、提取、分析数据,从相关数据中提取信息;
⑤数据挖掘算法:集群、分割、孤立点分析还有其他算法让我们深入数据内部,挖掘有价值的信息。
11、云计算:是大数据的强大平台,包括基础设施服务(IaaS)、平台服务(PaaS)、软件服务(SaaS)三个部分。
①IaaS:是云的一个服务端,用户可以通过互联网从计算机基础设施获得服务,大多数用户是科技公司。
②PaaS:以云计算为基础的软件研发平台服务,公司可以利用这个平台在已有软件基础上进一步发展或者研发软件。PaaS环境可以和一些软件开发工具结合,方便用户进行编码并且在网络上共享程序编码。
③SaaS:目前云计算利用较多并且发展成熟的一部分,利用互联网提供软件服务,不需要被下载到用户端或者存储在一个数据中心。
12、商业大数据的类型:传统企业数据、机器和传感器数据、社交数据。
13、大数据挖掘商业价值的方法:
①客户群体细分,为每个群体量定制特别的服务;
②模拟现实环境,发掘新的需求同时提高投资回报率;
③加强部门联系,提高整条管理链条和产业链条的效率;
④降低服务成本,发现隐藏线索进行产品和服务的创新。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/869866
推荐阅读
相关标签
  

闽ICP备14008679号