当前位置:   article > 正文

Hadoop+Spark大数据技术(微课版)曾国荪、曹洁版思维导图第一章 Hadoop大数据开发环境(整理复习自用)

Hadoop+Spark大数据技术(微课版)曾国荪、曹洁版思维导图第一章 Hadoop大数据开发环境(整理复习自用)

  • 第一章 Hadoop大数据开发环境

    • Hadoop概述

    • VirtualBox上安装虚拟机

    • Hadoop安装前的准备工作

    • 第一次作业

      • 简述大数据包括的主要内容

        • 大数据技术指用于处理大规模、高速增长、多样化数据的一系列工具和技术。

        • 包括数据采集与存储、数据处理与分析、数据计算、数据可视化、数据安全、知识图谱、数据挖掘等方面。

        • 帮助组织从海量数据中获取有用数据。

      • 简述大数据的基本特征

        • 巨量性

          • 随着信息技术的高速发展,数据爆发性增长。

        • 多样性

          • 数据类型繁多。数据分为结构化数据、半结构化数据和非结构化数据。

        • 高速型

          • 处理速度快。

        • 准确性

        • 价值密度低,商业价值高。

          • “大海捞金”

      • 简述Hadoop及其优势

        • Hadoop

          • 基于Java语言开发,具有很好的跨平台特性,可以部署在廉价的计算机集群中。

          • 核心是分布式文件系统(HDFS)和分布式并行计算模型(MapResuce)。

          • 是公认的行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力。

        • 优势

          • 高可靠性

            • 采用冗余副本机制,一旦发生故障,冗余机器可提供服务。

          • 高扩展性

            • 在计算机集群众数以千计的节点上分配数据并完成任务。

          • 高效性

            • Hadoop并行处理Data,在节点间动态移动数据,并保证节点动态负载均衡。

          • 低成本

            • 可以部署在廉价服务器集群上。

      • 简述Linux命令的功能

        • sudo

          • 以超级用户的权限执行命令

        • cd

          • 切换目录

        • mv

          • 移动或重命名文件

        • chown

          • 修改文件或目录的所有权和所属组

        • ls

          • 列出目录下的文件和子目录

        • mkdir

          • 创建新文件夹

        • cp

          • 复制文件或目录

        • cat

          • 查看文件内容

        • gedit

          • 打开文本编辑器(比vim更方便)

        • whoami

          • 显示当前登录用户的用户名

        • df

          • 显示磁盘空间使用情况

        • ping

          • 向目标主机发送网络Data包并接受响应(测试网络连接)

      • 简述如何安装VitualBox虚拟机的设备增强功能及作用

        • 关于增强功能的介绍(部分功能需要额外配置)

          • 自动适配分辨率。

          • 开启了无缝模式:虚拟系统中打开的应用,将出现在原生系统的任务栏,可以在原生系统中使用。

          • 增加粘贴板共享功能。

          • 增加共享文件夹功能。

          • 增加与主机之间拖拽文件功能。

    • Hadoop的安装与配置

      • 单机模式

        • Hadoop 默认的运行模式为非分布式模式(即单机模式),Hadoop 解压后无须进行其他配置就可运行单机模式,非分布式表示单Java 进程。

        • Hadoop单机模式只在一台机器上运行,存储采用本地文件系统,而不是HDFS(分布式文件系统)。

        • 无须任何守护进程(daemon),所有的应用程序都在单个JVM(Java virtual machine,Java虚拟机)上执行。

        • 在单机模式下调试MapReduce 程序非常高效方便,这种模式适用于开发阶段。

      • 伪分布式模式

        • Hadoop可以在单个节点(一台机器)上以伪分布式模式运行。

        • 读取的是HDFS的文件。

        • 同一个节点既作为NameNode、又作为DataNode。守护进程都在同一台机器上运行,是相互独立的Java进程。

      • 分布式模式

        • 一个虚拟机作为Master (主)节点,另一个虚拟机作为Slave1(从)节点。由3个及以上节点构建分布式集群,也可以采用类似的方法完成安装部署。

        • Hadoop的守护进程运行在一个集群上。Hadoop的守护进程运行在由多台主机搭建的集群上,是真正的生产环境。

        • 在所有的主机上安装JDK和Hadoop,组成相互连通的网络。

    • 第二次作业

      • 简述Hadoop三种运行模式及其区别。

      • 简述Hadoop集群安装配置的基本步骤。

        • (1)在Master 节点上创建hadoop用户、安装SSH、安装Java环境。

        • (2)在Master 节点上安装Hadoop,并完成配置。

        • (3)在Slavel节点上创建hadoop用户、安装SSH、安装Java环境。

        • (4)将Master 节点上的/usr/local/hadoop目录复制到Slave1节点上。

        • (5)在Master 节点上启动Hadoop。

      • 简述在Master节点上启动Hadoop集群的命令及其功能。启动成功后,可以用jps命令在Master节点上查看到哪些进程。

        • start-dfs.sh

          • 用于启动Hadoop分布式文件系统(HDFS)的各个组件,包括NameNode、DataNode等。

          • 在启动后,HDFS将会在集群中的各个节点上启动对应的服务,用于存储和管理数据。

        • start-yarn.sh

          • 该命令用于启动Hadoop的资源管理框架YARN,包括ResourceManager和NodeManager。

          • YARN负责集群资源的统一管理和作业调度,以及各个作业的执行。

        • mr-jobhistory-daemon.sh start historyserver

          • 该命令用于启动Hadoop的历史服务器(JobHistoryServer)。

          • 历史服务器负责记录和管理已完成作业的信息和日志,供用户查询和分析使用。

        • jps命令用于查看各个节点启动的进程。如果在Master节点上可以看到DataNode、NameNode、 ResourceManager、SecondaryNameNode、 JobHistoryServer 和NodeManager进程、就表示主节点进程启动成功

          • NameNode:HDFS的主节点,负责管理文件系统的命名空间和数据块映射信息。

          • DataNode:HDFS的数据节点,负责存储实际的数据块。

          • ResourceManager:YARN的资源管理器,负责集群资源的统一管理和作业调度。

          • SecondaryNameNode:HDFS的辅助节点,负责定期合并编辑日志以及检查点操作,用于提高NameNode的稳定性。

          • JobHistoryServer:历史服务器,负责记录和管理已完成作业的信息和日志。

          • NodeManager:YARN的节点管理器,负责每个节点上的资源管理和作业执行。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/545762
推荐阅读
相关标签
  

闽ICP备14008679号