当前位置:   article > 正文

【新星计划】Hadoop入门介绍_hadoop背景

hadoop背景

 

目录

一、 大数据概述

1.1 大数据是什么

1.2 大数据的特点

1.3大数据的应用场景

1.4 大数据生态圈

1.5 开发工具补充:

二、 Hadoop介绍

2.1 Hadoop是什么

 2.2 Hadoop的背景

2.3 Hadoop就业前景


一、 大数据概述

1.1 大数据是什么

        大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、 管理 和处理的数据集合。 大数据技 ,是指从各种各样类型的 数据 中,快速获得有价值信息的 能力 。适用于大数据的 技术 ,包括大规模并行处理(MPP )数据库,数据挖掘电网, 分布式文件系统 ,分布式数据库, 云计算平台 互联网 ,和可 扩展的存储系统。
        大数据主要解决的问题是:采集 存储 处理

1.2 大数据的特点

 

具体来说,大数据的基本特征可以归纳为 4V
        一是数据体量巨大(Volume )。 百度资料表明,其新首页导航每天需要提供的数据超过
1.5PB 1PB=1024TB ),这些数据如果打印出来将超过 5 千亿张 A4 纸。有资料证实,到目前为止,人类生产的所有印刷材料的 数据量 仅为 200PB
数据量单位
        二是多样性(Variety )。 现在的数据类型不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多类型的数据,个性化数据占绝对多数。另一方面,数据的来源的是多样性的,我们采集的数据它通过不同的渠道,不同平台产生的多样化。
        三是处理速度快(Velocity )。 数据处理遵循 “1 秒定律 ,可从各种类型的数据中快速获得高价值的信息。
        四是价值密度低(Value )。 以视频为例,一小时的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。

1.3大数据的应用场景

        众所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。大数据技术可以帮助您处理从客户体验到分析的一系列业务活动。这里仅举几例。

        1. 可视化分析。大数据分析的使用者有大数据分析专。家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。

        2. 产品开发。 Netflix 和宝洁( Procter & Gamble )等公司使用大数据来预测客户需求。他们通过对过去和当前产品或服务的关键属性进行分类,并对这些属性与产品的商业成功之间的关系进行建模,为新产品和服务构建预测模型。此外,宝洁使用来自焦点小组、社交媒体、测试市场和早期商店推出的数据和分析来规划、生产和推出新产品。

 

        3. 客户体验。 争夺客户的竞赛正在进行中。现在比以往任何时候都更有可能更清楚地了解客户体验。大数据使您能够从社交媒体、Web 访问、通话记录和其他来源收集数据,以改善交互体验并最大化交付的价值。开始提供个性化优惠,减少客户流失,并主动处理问题。

        4. 机器学习。 机器学习是目前的热门话题。数据(尤其是大数据)是原因之一。我们现在能够教机器,而不是给它们编程。大数据的可用性用于训练机器学习模型使这成为可能。

1.4 大数据生态圈

 

 

数据采集工具:
        日志收集框架 Flume Logstash Filebeat
        数据迁移工具 Sqoop
数据存储工具:
        分布式文件存储系统 Hadoop HDFS
        数据库系统 Mongodb HBase
数据处理工具:
        分布式计算框架
        批处理框架:Hadoop MapReduce
        流处理框架:Storm
        混合处理框架:Spark Flink
查询分析框架 Hive Spark SQL Flink SQL Pig Phoenix
        资源和任务管理:集群资源管理器 Hadoop YARN
        分布式协调服务 Zookeeper
        任务调度框架 Azkaban Oozie
        集群部署和监控 Ambari Cloudera Manager
上面列出的都是比较主流的大数据框架,社区都很活跃,学习资源也比较丰富。建议从 Hadoop 开始入门学习,因为它是整个大数据生态圈的基石,其它框架都直接或者间接依赖于 Hadoop

1.5 开发工具补充:

        大数据生态圈中有非常多组件是使用Java 进行开发,因此学习大数据的过程比较多使用 Java 语言进行开发。除此之外,大数据讲究的就是分布式数据的存储与处理,因此在学习大数据框架的过程中需要用虚拟机搭建集群和服务,并要连接集群中的服务器进行操作。这里推荐一些大数据学习常用的开发工具:
JavaIDE IDEA Eclipse
虚拟机管理软件: VMWare VirtualBox VMWare Fusion
终端连接工具: MobaXterm Xshell

二、 Hadoop介绍

2.1 Hadoop是什么

 

1. Apache Hadoop Apache 软件基金会下用 Java 语言开发的一个 开源分布式系统基础架构平台 。。
2. Hadoop 提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对 海量数据进行分布式处理
3. Hadoop 的核心组件有:
        1. HDFS Hadoop Distributed File System ): 分布式文件系统,提供对应用程序数据的高吞吐量访问。
        2. YARN :任务分配和集群资源管理调度模块。
        3. MapReduce :基于 Hadoop Yarn ,为大数据提供并行计算的模块。
        4. 广义上来说, Hadoop 通常是指一个更广泛的概念 ——Hadoop 生态圈

 2.2 Hadoop的背景

 

1. Hadoop 最早起源于 Nutch Nutch 的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、 索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题 —— 如何解决数十亿网页的存储和索引 问题。
2. 2003-2004 年, 谷歌发表的两篇论文为该问题提供了可行的解决方案
        ---分布式文件系统( GFS ),可用于处理海量网页的 存储
        ---分布式计算框架 MapReduce ,可用于处理海量网页的 索引计算 问题。
3. Nutch 的开发人员完成了相应的 开源实现 HDFS MapReduce ,并从 Nutch 中剥离成为独立项目Hadoop ,到 2008 1 月, Hadoop 成为 Apache 顶级项目,迎来了它的快速发展期。

2.3 Hadoop就业前景

Hadoop 就业整体情况
        大数据产业已纳入国家十三五规划
        各大城市都在进行智慧城市项目 建设,而智慧城市的根基就是大数据综合平台
        互联网时代数据的种类,增长都呈现爆发式增长 ,各行业对数据的价值日益重视
        相对于传统 JAVAEE 技术领域来说,大数据领域的 人才相对稀缺
        随着现代社会的发展,数据处理和数据挖掘的重要性只会增不会减,因此,大数据技术是一个尚在蓬勃发展且具有长远前景的领域
Hadoop 就业职位要求
大数据是个复合专业,包括应用开发、软件平台、算法、数据挖掘等,因此, 大数据技术领域的就
业选择是多样的 ,但就 Hadoop 而言,通常都需要具备以下技能或知识:
        Hadoop 分布式集群的平台搭建
        Hadoop 分布式文件系统 HDFS 的原理理解及使用
        Hadoop 分布式运算框架 MapReduce 的原理理解及编程
        Hive 数据仓库工具的熟练应用
        Flume、 sqoop oozie 等辅助工具的熟练使用
        Shell/python 等脚本语言的开发能力
Hadoop 相关职位的薪资水平
大数据技术或具体到 Hadoop 的就业需求目前主要集中在北上广深一线城市, 薪资待遇普遍高于传
JAVAEE 开发人员 ,以广州为例:

 

关注博主下篇更精彩

一键三连!!!

一键三连!!!

一键三连!!!
感谢一键三连!!!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/803232
推荐阅读
相关标签
  

闽ICP备14008679号