赞
踩
大数据很火热,但实际上能准确说出的概念的人很少。
为了为之后学习Hadoop打下概念基础以便更容易掌握学习框架,先来看看维基百科和百度百科介绍大数据:
维基百科中文:大数据(英语:Big data),又称为巨量资料,指的是在传统数据处理应用软件不足以处理的大或复杂的数据集的术语。
大数据也可以定义为来自各种来源的大量非结构化或结构化数据。从学术角度而言,大数据的出现促成广泛主题的新颖研究。这也导致各种大数据统计方法的发展。大数据并没有统计学的抽样方法;它只是观察和追踪发生的事情。因此,大数据通常包含的数据大小超出传统软件在可接受的时间内处理的能力。由于近期的技术进步,发布新数据的便捷性以及全球大多数政府对高透明度的要求,大数据分析在现代研究中越来越突出。 [ 1 ] ^{[1]} [1]
百度百科:大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
[
2
]
^{[2]}
[2]
也许有人搜索一下百科就以为这是大数据的定义,但没人说这就是大数据的定义,这两段是简要地概括一下大数据的概念、结构、特性等。事实上,个人感觉大数据的概念不是一两句话就能讲清的。不然的话,林子雨老师就不会用一整整一章的内容来讲解大数据的概念。 [ 3 ] ^{[3]} [3]
如果多搜集资料你就会发现,每个人对大数据大数据的讲解都有些许不同,也许一千个读者眼里的哈姆雷特是一样的,但每个读者或多或少表达的倾向不一样。同理,大数据的概念我说是说不清的了,这辈子都说不清的了,但请记住大数据的几点特点:数据量大、数据类型繁多、处理速度快、价值密度低。
大数据无处不在,包括金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的社会各行各业都已经融入了大数据的印迹。具体案例在此不详细介绍啦,有兴趣可以看知乎问题:基于大数据的成功应用有哪些?
数据采集:利用ETL工具将分布的、异构数据源中的数据如关系数据、平面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;或者也可以把实时采集的数据作为流计算系统的输入,进行实时处理分析。
数据存储和管理: 利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理。
数据处理与分析: 利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据。
数据隐私和安全:在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全。
上述大数据产品中有不少就是后续的篇章里将介绍如何使用的,MapReduce、hive等,在此引用某一案例来了解下批处理和流计算。
大数据处理系统通常采用并行化的策略进行数据处理,每个阶段由与分区数相同个数的任务组成,一个任务负责处理一个分区,各个任务之间相互独立执行,不会发生数据交换。
在批处理引擎中,一个物理数据流图通常被划分为多个阶段,阶段之间根据依赖关系按序执行,一个阶段只有等其依赖的所有阶段都执行结束后才能开始执行。
例如,在基于批处理引擎的Spark系统中,将每个逻辑数据流图根据给定的并行度转换为物理数据流图后,系统会根据数据交换将该物理数据流图划分为多个阶段按序执行。如图3所示,因为在按键值分组顶点处发生数据交换,所以整个物理数据流图在此处被切分,形成阶段0和阶段1两个阶段。其中,阶段1中的数据处理依赖于阶段0处理后的中间结果,即2个阶段的执行存在先后顺序,阶段1只有在阶段0的处理全部完成后才能开始执行。在阶段0中,系统启动3个线程分别处理相互独立的3个分区中的数据,并将得到的中间结果存储在3个线程各自的本地磁盘上。等到阶段0中的3个线程都完成处理后,系统开始进行阶段1的处理,阶段1中启动2个线程分别负责2个分区的数据,每个线程通过网络从阶段0的中间结果处获取属于自己的数据进行后续处理。
在流计算引擎中,物理数据流图不会被划分为多个阶段。任务之间的数据交换不需要将中间结果数据先写入磁盘再发送给下游任务,而是在处理完一条数据后立即将其发送给下游任务。
大数据平台市场分布对就业等或许有些影响(也许、可能、大概),毕竟供求决定价格。上面已经介绍了一些大数据计算模式和产品,那么现在就来看看调查报告吧。
随着分布式计算和云平台的逐步成熟,目前大部分公司都有能力搭建自己的大数据平台。调研数据显示,81% 企业在进行大数据相关的开发和应用,50% 的企业选择私有云解决方案来部署大数据应用,28% 的企业选择自主研发。私有云部署解决方案是企业构建大数据平台的主要方式。
调查报告发现,有 30% 以上的企业并没有使用相对成熟的 Hadoop 技术搭建数据平台,这些企业的算法性能会很大程度上受限于低效的平台,更不可能开发出更高效的数据分析算法。但幸运的是大部分企业都基于商业版或者社区版 Hadoop 搭建了数据平台,这些公司的侧重点主要在应用发现和算法的设计层面,更有可能在不久的将来实现大数据的价值。
Apache Spark 是一个处理大规模数据的快速通用引擎,它可以独立运行,也可以在 Hadoop、Mesos、云端运行,它可以访问各种数据源包括 HDFS、Cassandra、HBase 和 S3,可以提升 Hadoop 集群中的应用在内存和磁盘上的运行速度。Spark 生态系统中除了核心 API 之外,还包括其他附加库,可以为大数据分析和机器学习领域提供更多的能力。本次调研中,Spark 是使用最普遍的大数据平台组件,使用率达到44%,而MapReduce使用率仅为21%。
分布式文件系统 HDFS 作为核心组件之一,使用率也达到了 39%。企业对大数据平台应用最多的场景是统计分析、报表生成及数据可视化,38% 企业使用ELK(ElasticSearch + Logstash + Kibana)实时日志分析平台。
综上所述,目前大数据的发展热潮令人欢欣鼓舞。一个优秀的大数据团队,需要有对产品开发具有高敏感性同时对技术有一定理解的人才,同时需要理论基础极其扎实,能对实际问题进行抽象建模和算法设计的人才。只有双管齐下,在产品和技术方面进行深层次探索,才能真正实现大数据产业的繁荣。
云计算、大数据和物联网相辅相成,既有联系又有区别。
概念:云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源。
关键技术: 虚拟化、分布式存储、分布式计算、多租户等。
数据中心:
应用:
产业: 云计算产业作为战略性新兴产业,近些年得到了迅速发展,形成了成熟的产业链结构,产业涵盖硬件与设备制造、基础设施运营、软件与解决方案供应商、基础设施即服务(IaaS)、平台即服务(PaaS)、软件即服务(SaaS)、终端设备、云安全、云计算交付/咨询/认证等环节。
概念:物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式联在一起,形成人与物、物与物相联,实现信息化和远程管理控制。
关键技术: 物联网中的关键技术包括识别和感知技术(二维码、RFID、传感器等)、网络与通信技术、数据挖掘与融合技术等。
应用: 物联网已经广泛应用于智能交通、智慧医疗、智能家居、环保监测、智能安防、智能物流、智能电网、智慧农业、智能工业等领域,对国民经济与社会发展起到了重要的推动作用。
产业: 完整的物联网产业链主要包括核心感应器件提供商、感知层末端设备提供商、网络提供商、软件与行业解决方案提供商、系统集成商、运营及服务提供商等六大环节。
[1] 大数据——维基百科中文
[2] 大数据——百度百科
[3] 《大数据技术基础》:林子雨
[4] 《大数据技术原理与应用》第二版:林子雨
[5] 大数据存储、计算、应用、可视化的基本概述:迅宜捷科技
[6] 两成开发者月薪超 1.7 万、算法工程师最紧缺:CSDN
[7] 2018-2019中国开发者调查报告简报(一文了解全貌):柴神
[8]毕倪飞,丁光耀,陈启航,徐辰,周傲英. 数据流计算模型及其在大数据处理中的应用[J]. 大数据,:1-19.
[9]袁旭初,付国,毕继泽,张岩峰,聂铁铮,谷峪,鲍玉斌,于戈. 分布式数据流计算系统的数据缓存技术综述[J]. 大数据,:1-22.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。