当前位置:   article > 正文

大数据系列教程001-初识大数据

大数据系列教程

声明:大数据系列教程文章由Java潘老师辛苦原创,免费公开供java爱好者学习。如需转载请获得潘老师授权并保留原文链接,如有疑问或建议,可以联系潘老师:

Q:1562691348

V:A1562691348

本教程学习知识储备:Java SE基础、Linux基础、数据库基础

1.大数据起源与背景

先了解两个概念(摩尔定律和新摩尔定律):

 

 

谷歌公司这样基于搜索引擎的公司,需要将互联网上每天产生的海量数据爬取存储到自己的索引库,提供给用户搜索,就面临着海量数据存储与处理的问题。

单台服务器的性能是有限的,那么处理数据的能力是有限的,而计算机性能的增长远不及数据的增长迅猛,面对每天产生的海量数据,单台服务器根本无能为力,因此必须要使用多台服务器针对海量数据进行协同处理。

 

Google:

  • 在2003年发表文章《The Google File System 》 :

GFS 解决大批量、海量数据存储问题

  • 在2004年发表文章《MapReduce: Simplified Data Processing on Large Clusters》:MapReduce 解决大数据领域的计算问题
  • 在2006年发表文章《Bigtable: A Distributed Storage System for Structured Data》:

 

补充说明:

谷歌技术三宝分别是:GFS、MapReduce和BigTable。

Hadoop实际上就是谷歌三宝的开源实现,Hadoop MapReduce对应Google MapReduce,HBase对应Big Table,HDFS对应GFS。区别是谷歌底层是c++,而hadoop底层是用java。

 

2.大数据的数据单位

按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。(进率2^10)

 

大数据的起始计量单位至少是PB级别。

 

处理过PB级别的大数据是指:搭建的处理集群每天处理PB数据量(单次计算任务的数据量在PB级别)

 

3.大数据概念

维基百科定义:

大数据(Big data或Megadata):大数据,或称巨量数据、海量数据、大数据,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。

(简单理解:无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合)

 

4.大数据特点

 

业界通常使用4V来描述:

海量性(Volume):第一个特征是数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T),而我们生活中每天都会产生大量的数据。

 

多样性(Variety):第二个特征是种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。

 

价值性(Value):第三个特征是数据价值密度相对较低,意思是说大部分数据没有参考意义,少部分数据会形成高价值,比如行车记录仪记录的大部分视频是无用的,只有当出现事故时才会体现出价值。随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通 过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。

 

高速性(Velocity):第四个特征数据增长速度快,处理速度也快,时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。

 

5.大数据的价值

在总数据量相同的情况下,与个别分析独立的小型数据集(Data Set)相比,将各个小型数据集合并后进行分析可得出许多额外的信息和数据关系性,可用来察觉商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定实时交通路况等;这样的用途正是大型数据集盛行的原因。

 

6.大数据技术框架

 

7.大数据计算模式

 

8.大数据与云计算、物联网之间的关系

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/232932
推荐阅读
相关标签
  

闽ICP备14008679号