当前位置:   article > 正文

大数据之Hadoop概念导论(新手上路必备)一_hadoop大数据绪论

hadoop大数据绪论

目录

第一章:什么是大数据

1.什么是大数据,大数据是什么?

2,什么级别称之为大数据?

3,大数据发展速度离不开硬件的支撑:

4,大数据的4v特征:

5,大数据带来的挑战:

6,大数据生态圈技术:

7,云计算关键技术:

8. 物联网关键技术:

9.大数据 云计算 人工智能 之间关系

第二章,大数据处理架构 hadoop

1,hadoop是什么?

2,hadoop的优点:

3,hadoop的缺点:

4,hadoop核心组件- hdfs:

5,hadoop核心组件-  MapReduce

6,hadoop核心组件-yarn


第一章:什么是大数据

1.什么是大数据,大数据是什么?

           大数据(big data) 或称为巨量数据,海量数据,大资料。

2,什么级别称之为大数据?

           2.1   所涉及到的数据量规模巨大到无法通过人工或者计算机,在合理的时间内达到,截取,管  理,处并整理成为人类所能解读的形式的信息。
           2.2   我们这里学习的大数据,不仅仅指一个数据,它已经成为一个完整的主题,涉及各种工具,技术和架构;

3,大数据发展速度离不开硬件的支撑:

            3.1  随着科学技术的不断进步,存储设备制造工艺不断升级,容量大幅增加,速度不断提升,价格却不断下跌;
            3.2  cpu处理速度的不断提升也是促使数据量不断增加的重要原因,性能不断提升的cpu,大大提高处理数据的能力;
            3.3  摩尔定律: 性能每隔18个月提高一倍,价格下降一半;

4,大数据的4v特征:

            大容量(volume) 多样化(variety) 快速化(velocity)  产生的价值(value)

5,大数据带来的挑战:

            1,成本挑战
            2,数据安全风险的挑战
            3,大数据技术的挑战
            4,数据分析和管理人才紧缺的挑战
            5,外部业务需求的数据转换的挑战

6,大数据生态圈技术:

            6.1    hadoop核心组件: hdfs          负责存储数据
                     MapReduce    对海量数据进行计算
                     Yarn        通用的资源调度框架

7,云计算关键技术:

            7.1 虚拟化
            7.2 分布式存储
            7.3 分布式计算
            7.4 多租户

8. 物联网关键技术:

            8.1 二维码及RFID(利用射频信号实现无接触信息传递)
            8.2 传感器
            8.3 近距离通信
            8.4 无线网络
            8.5 嵌入式技术

9.大数据 云计算 人工智能 之间关系

            简单阐述一下就是:人工智能 = 云计算  +  大数据

第二章,大数据处理架构 hadoop

1,hadoop是什么?

    是一个能够对大量数据进行分布式处理,可运行在大规模集群上的计算平台。是apache基金会用java语言实现的开源分布式系统集成架构,具有,可靠,高效,可伸缩的特点。

2,hadoop的优点:

    2.1 高可靠性:hadoop具有按位存储和处理数据能力的高可靠性;
    2.2 高扩展性:hadoop通过可用的计算机集群分配数据,完成存储和计算任务,这些集群可以方便的扩展到数千计的节点中,具有高扩展性;
    2.3 高效性:hadoop能够在节点之间进行动态的移动数据,并保证各个节点的动态平衡,处理速度非常快,具有高效性;
    2.4 高容错性:hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配,具有高容错性;

3,hadoop的缺点:

    3.1 hadoop不适用于低延迟数据访问;
    3.2 hadoop不能高效存储大量小文件;
    3.3 hadoop不支持多用户写入并任意修改文件;

4,hadoop核心组件- hdfs:

    hdfs具有处理超大数据,流式处理,可以运行在廉价商用服务器上等优点;
    hdfs中的组件: NameNode---- DataNode
    NameNode是hdfs的守护程序,也就是所谓的master(主节点)节点,主要存储文件的元数据信息,记录文件如何分割成数据块的,以及这些数据块被存储到那些节点上,NameNode单点在发生故障时间使集群崩溃;
    DataNode 是slave(从)节点DataNode节点负责把数据块读写到本地文件系统,是真正存储文件的节点,一个文件会被切割成一个或多个block块,这些block块会被存储在一系列的DataNode节点中,并且每一个块可能会在多个DateNode上备份;

    hdfs基本原理,就是讲大文件切分成同样大小的数据块(128M),进行冗余3份,存储在不同的机器上,同时调控集群的负载均衡;

5,hadoop核心组件-  MapReduce

    MapReduce是一个批量分布式计算框架:
    map  任务
    reduce  负责计算

集群MapReduce计算流程

 

6,hadoop核心组件-yarn

    Yarn是一个资源管理模块,负责整个集群资源的管理和调度;他的特点是扩展性,容错性,多框架资源统一调度
    Yarn的一个基本思想是将资源管理和作业调度/监视的功能分解为独立的守护进程;
        其思想是有一个全局的ResourceManager(RM)和每一个应用的ApplicationMaster(AM) 一个应用可以是一个job,也可以是一组job;
    ResourceManager   +  ApplicationManager  +  NodeManager
    ResourceManager  主要负责所有的应用程序的资源分配;
    ApplicationMaster  主要负责每个作业的任务调度;
    NodeManager 是接受ResourceManager 和ApplicationMaster的命令实现资源的分配执行体;

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/629033
推荐阅读
相关标签
  

闽ICP备14008679号