赞
踩
Hadoop概述
在VirtualBox上安装虚拟机
Hadoop安装前的准备工作
大数据技术指用于处理大规模、高速增长、多样化数据的一系列工具和技术。
包括数据采集与存储、数据处理与分析、数据计算、数据可视化、数据安全、知识图谱、数据挖掘等方面。
帮助组织从海量数据中获取有用数据。
巨量性
随着信息技术的高速发展,数据爆发性增长。
多样性
数据类型繁多。数据分为结构化数据、半结构化数据和非结构化数据。
高速型
处理速度快。
准确性
价值密度低,商业价值高。
“大海捞金”
sudo
以超级用户的权限执行命令
cd
切换目录
mv
移动或重命名文件
chown
修改文件或目录的所有权和所属组
ls
列出目录下的文件和子目录
mkdir
创建新文件夹
cp
复制文件或目录
cat
查看文件内容
gedit
打开文本编辑器(比vim更方便)
whoami
显示当前登录用户的用户名
df
显示磁盘空间使用情况
ping
向目标主机发送网络Data包并接受响应(测试网络连接)
关于增强功能的介绍(部分功能需要额外配置)
自动适配分辨率。
开启了无缝模式:虚拟系统中打开的应用,将出现在原生系统的任务栏,可以在原生系统中使用。
增加粘贴板共享功能。
增加共享文件夹功能。
增加与主机之间拖拽文件功能。
Hadoop 默认的运行模式为非分布式模式(即单机模式),Hadoop 解压后无须进行其他配置就可运行单机模式,非分布式表示单Java 进程。
Hadoop单机模式只在一台机器上运行,存储采用本地文件系统,而不是HDFS(分布式文件系统)。
无须任何守护进程(daemon),所有的应用程序都在单个JVM(Java virtual machine,Java虚拟机)上执行。
在单机模式下调试MapReduce 程序非常高效方便,这种模式适用于开发阶段。
Hadoop可以在单个节点(一台机器)上以伪分布式模式运行。
读取的是HDFS的文件。
同一个节点既作为NameNode、又作为DataNode。守护进程都在同一台机器上运行,是相互独立的Java进程。
一个虚拟机作为Master (主)节点,另一个虚拟机作为Slave1(从)节点。由3个及以上节点构建分布式集群,也可以采用类似的方法完成安装部署。
Hadoop的守护进程运行在一个集群上。Hadoop的守护进程运行在由多台主机搭建的集群上,是真正的生产环境。
在所有的主机上安装JDK和Hadoop,组成相互连通的网络。
(1)在Master 节点上创建hadoop用户、安装SSH、安装Java环境。
(2)在Master 节点上安装Hadoop,并完成配置。
(3)在Slavel节点上创建hadoop用户、安装SSH、安装Java环境。
(4)将Master 节点上的/usr/local/hadoop目录复制到Slave1节点上。
(5)在Master 节点上启动Hadoop。
start-dfs.sh
用于启动Hadoop分布式文件系统(HDFS)的各个组件,包括NameNode、DataNode等。
在启动后,HDFS将会在集群中的各个节点上启动对应的服务,用于存储和管理数据。
start-yarn.sh
该命令用于启动Hadoop的资源管理框架YARN,包括ResourceManager和NodeManager。
YARN负责集群资源的统一管理和作业调度,以及各个作业的执行。
mr-jobhistory-daemon.sh start historyserver
该命令用于启动Hadoop的历史服务器(JobHistoryServer)。
历史服务器负责记录和管理已完成作业的信息和日志,供用户查询和分析使用。
jps命令用于查看各个节点启动的进程。如果在Master节点上可以看到DataNode、NameNode、 ResourceManager、SecondaryNameNode、 JobHistoryServer 和NodeManager进程、就表示主节点进程启动成功
NameNode:HDFS的主节点,负责管理文件系统的命名空间和数据块映射信息。
DataNode:HDFS的数据节点,负责存储实际的数据块。
ResourceManager:YARN的资源管理器,负责集群资源的统一管理和作业调度。
SecondaryNameNode:HDFS的辅助节点,负责定期合并编辑日志以及检查点操作,用于提高NameNode的稳定性。
JobHistoryServer:历史服务器,负责记录和管理已完成作业的信息和日志。
NodeManager:YARN的节点管理器,负责每个节点上的资源管理和作业执行。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。