当前位置:   article > 正文

2024年大数据最全大数据之Hadoop3简单入门(一)(通俗易懂)_hadoop3入门学习,腾讯大数据开发开发岗_大数据教程

大数据教程

img
img

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

2.2.3 Varity(多样)

2.2.4 Value(低价值密度)

二. hadoop入门概述

2.1 什么是hadoop

2.1.1 概念

2.1.2 hadoop优势

2.1.3 hadoop不同版本区别

2.2  HDFS架构概述

2.3  Yarn架构概述

2.4 MapReduce架构概述

2.5 三者关系

三. Hadoop运行环境搭建

3.1 固定IP地址与主机名称配置

3.2 增加用户给用户添加root权限

3.3 克隆虚拟机

3.4 在Hadoop102上安装JDK

3.5 在Hadoop102上安装hadoop3.1.3

四. Hadoop运行模式

4.1 运行模式

4.2 完全分布式的搭建(重点)

4.2.1 编写集群分发脚本xsync

4.2.2 SSH免密登录

4.2.3 入门集群配置

4.2.4 群起集群

附件:大数据部门组织结构图

附件:大数据生态体系图

附件:推荐系统项目框架图


一. 大数据基础概论

1.1 何为大数据

大数据(Big Data)是解决对海量数据进行采集,存储与分析计算的问题。

大数据存储单位顺序:bit,Byte,KB,MB,GB, TB ,PB, EB, ZB ,YB, BB ,NB, DB,每个单位之间都是1024的换算。

对于大数据的例子,最现实简单的就是在某音,假如你喜欢看美女,大数据就会记住你这个爱好然后就会精准推荐美女给你。

大数据的应用场景还有人工智能,无人驾驶。虚拟现实,远程医疗,物联网等。

2.1 大数据特点(4V)

2.1.1 Volume(大量)

如何是大量的,看这些数据,截止2021年以前人类的所有印刷总的数据量大约是200PB,全人类说过话的数据量大约为5EB,有些大企业的数据量达到了EB量级

2.2.2 Velocity(高速)

在海量的数据面前,处理数据的效率就是企业的生命。比如2020年96秒,天猫天猫双十一交易额超过100亿,简简单单先完成一个小目标。

2.2.3 Varity(多样)

数据多样性可以分为结构化数据和非结构化数据。相比数据库和文本等结构化数据存储来说,对非结构化数据,例如网络日志、音频、视频、图片、地理位置信息等,这些多类型数据的处理能力提出了更高要求。

2.2.4 Value(低价值密度)

价值密度的高低与数据总量的大小成反比,比如,在一天监控视频中,我们只关心某一分钟的操作,因此如何快速对有价值数据**“提纯”**成为目前大数据背景上有待解决的难题。

二. hadoop入门概述

2.1 什么是hadoop

2.1.1 概念

hadoop是一个分布式系统基础架构,主要解决数据存储与海量分析计算的问题,广泛来说,hadoop通常指的是Hadoop生态圈

2.1.2 hadoop优势

主要分为4个方面。

  1. 高可靠性:hadoop底层维护多个数据副本,即使当hadoop某个计算元素或存储出现故障,也不会导致数据丢失。
  2. 高扩展性:集群间分配任务数据,可方便扩展数以千计的节点。就是动态的增加服务器的节点,保证每个节点正常运行,不会宕机。
  3. 高效性:在MapReduce的思想下,hadoop是并行工作的。可以加快任务处理速度。
  4. 高容错性:能够将失败的任务重新分配。
2.1.3 hadoop不同版本区别

对于hadoop系列主要有1.x,2.x,3.x的版本。组成结构也是不同的,对于1.x组成主要是MapReduce(计算+资源调度),HDFS(数据存储),Common(辅助工具),如下图:

对于2.x与3.x组成主要是MapReduce(计算),Yarn(资源调度),HDFS(数据存储),Common(辅助工具),如下图:

2.2  HDFS架构概述

Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。对于HDFS主要有以下几个概念。

  1. NameNode(nn):存储文件的元数据,比如文件名,目录结构等,以及每个文件的块列表与块所在的DataNode,表示数据存在什么位置。

  2. **DataNode(dn)声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】

推荐阅读
相关标签