当前位置:   article > 正文

Hadoop学习笔记(1)_hadoop学习笔记01-hadoop介绍

hadoop学习笔记01-hadoop介绍

目录

一、Hadoop入门

1、Hadoop概述 

1.1 Hadoop是什么

1.2 Hadoop发展历史

1.3 Hadoop三大发行版本(了解)

1.4 Hadoop的优势

1.5 Hadoop1.x、2.x、3.x区别

2、Hadoop组成 

2.1 HDFS架构概述

2.2 YARN架构概述

2.3 MapReduce架构概述

2.4 HDFS、YARN、MapReduce三者关系

 2.5 大数据技术生态体系

2.6 推荐系统框架图

二、Hadoop(1)——运行模式

1、本地运行模式

2、完全分布式运行模式

2.1 编写集群分发脚本xsync

2.2 SSH无密登陆配置

2.4 集群配置

2.5 群起集群

2.6 配置历史服务器

2.7 日志聚集功能配置

2.8 集群启动/停止方式总结

2.9 两个常用的脚本

2.10 面试题(关于端口号和配置文件) 

2.11 集群时间同步

3、常见错误及解决方案


一、Hadoop入门

内容:

1、Hadoop概述 

1.1 Hadoop是什么

1.2 Hadoop发展历史

1.3 Hadoop三大发行版本(了解)

1.4 Hadoop的优势

1.5 Hadoop1.x、2.x、3.x区别

2、Hadoop组成 

2.1 HDFS架构概述

Hadoop Distributed File System,简称HDFS,是一个分布式文件系统

示意图:

2.2 YARN架构概述

Yet Another Resource Negotiator简称YARN,另一种资源协调者,是Hadoop的资源管理器

2.3 MapReduce架构概述

MapReduce将计算过程分为两个阶段:Map和Reduce

1、Map阶段并行处理输入数据(分工给多个服务器)

2、Reduce阶段对Map结果进行汇总

2.4 HDFS、YARN、MapReduce三者关系

 2.5 大数据技术生态体系

2.6 推荐系统框架图

二、Hadoop(1)——运行模式

1、本地运行模式

 注意:

1、每一步输入查看路径时候不要按回车,要使用table键

2、这里一定要指明输出路径,且输出路径还不能存在

2、完全分布式运行模式

2.1 编写集群分发脚本xsync

1、scp安全拷贝 

以下几种方法都可以

方法1:在102中从102拷贝到103

方法2:在103中从102拷贝到103 

方法3:在103中从102拷贝到104

2、ysync远程同步工具

当修改了一个文件时,同步只更改该文件,而拷贝要整个文件进行复制拷贝 

3、xsync集群分发脚本

 /home/atguigu/bin目录下的文件是全局环境变量,因此可以在任何地方声明

 

 dirname $file可以获取父目录

-P防止读取到软连接的目录

ssh可以远程连接,比如可以在102转换到103,-p可以实现覆盖

2.2 SSH无密登陆配置

免密登录原理

2.4 集群配置

1、集群部署的规划

2、配置文件说明 

3、配置集群

4、5 分发配置文件及查看分发情况 

2.5 群起集群

注意:要在103上启动ResourceManager 

1、实践可以看出来,存储路径就在data目录下

2、关闭yarn等使用kill 进程号

2.6 配置历史服务器

为了查看程序的历史运行情况,需要配置以下历史服务器,具体配置步骤如下:

2.7 日志聚集功能配置

在102中使用mapred --daemon stop historyserver可以停止历史服务器

在hadoop103中使用sbin/stop-yarn.sh可以停止yarn

2.8 集群启动/停止方式总结

 可以kill 进程去停止

2.9 两个常用的脚本

2.10 面试题(关于端口号和配置文件) 

2.11 集群时间同步

我们的虚拟机联网了,因此不用打开

3、常见错误及解决方案

 

附上HDFS和YARN的图

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/560952
推荐阅读
相关标签
  

闽ICP备14008679号