赞
踩
1) Hadoop是一个处理海量数据的框架
2) 可以分布式的处理海量数据
3) 为海量数据提供高效的处理
1) 单位:bit、byte、kb、mb、gb、tb、pb、eb、zb、yb
2) 数据类型:结构化数据、半结构化数据、非结构化数据
3) 特点:价值低密度(检索了很多信息才能找到对自己有用的信息)
4) 意义:预测作用
优点:
1) 低成本
2) 高可靠性
3) 高容错性
4) 高效率
5) 高扩展性 (可随时的添加新的集群来提高存储和计算的能力)
6) 不适合处理小文件
缺点:
1) 不适合处理小文件
2) 无法实时计算(实时是马上处理的意思,离线是延迟晚一点处理)
3) 安全性较低
修改完/etc/profile文件后记得用source /etc/profile 刷新文件,才能生效
1)创建存储数据的目录
2) 创建存放安装程序的目录
3) 创建存放安装包的目录
上传并解压安装包后
配置系统环境变量
1)配置运行环境,先进入以下目录
cd /export/servers/wfb-hadoop/hadoop-3.3.0/etc/hadoop
vi hadoop-env.sh # 在文件底部添加内容
需要添加:
export JAVA_HOME=/export/servers/jdk1.8.0_241
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root
2)配置Hadoop
# 直接按向上方向键,然后把文件名修改为core-site.xml
# 然后在<configuration>标签里添加
需要添加:
<property> <name>fs.defaultFS</name> <value>hdfs://hadoop1:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/export/dara/hadoop-wfb-3.3.0</value> </property> <property> <name>hadoop.http.staticuser.user</name> <value>root</value> </property> <property> <name>hadoop.proxyuser.root.hosts</name> <value>*</value> </property> <property> <name>hadoop.proxyuser.root.groups</name> <value>*</value> </property> <property> <name>fs.trash.interval</name> <value>1440</value> </property>
3)配置HDFS
# 同理,把文件名修改为hdfs-site.xml
# 然后在<configuration>标签里添加
需要添加:
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoop1:9868</value>
</property>
4)配置MapReduce
# 同理,把文件名修改为mapred-site.xml
# 然后在<configuration>标签里添加
需要添加:
</property> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <property> <name>mapreduce.jobhistory.address</name> <value>hadoop1:10020</value> </property> <property> <name>mapreduce.jobhistory.webapp.address</name> <value>hadoop1:19888</value> </property> <property> <name>yarn.app.mapreduce.am.env</name> <value>HADOOP_MAPRED_HOME=/export/servers/wfb-hadoop/hadoop-3.3.0</value> </property> <property> <name>mapreduce.map.env</name> <value>HADOOP_MAPRED_HOME=/export/servers/wfb-hadoop/hadoop-3.3.0</value> </property> <property> <name>mapreduce.reduce.env</name> <value>HADOOP_MAPRED_HOME=/export/servers/wfb-hadoop/hadoop-3.3.0</value> </property>
5)配置YARN
# 同理,把文件名修改为 yarn-site.xml
# 然后在<configuration>标签里添加
需要添加:
<property> <name>yarn.resourcemanager.hostname</name> <value>hadoop1</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.pmem-check-enabled</name> <value>false</value> </property> <property> <name>yarn.nodemanager.vmem-check-enabled</name> <value>false</value> </property> <property> <name>yarn.log-aggregation-enable</name> <value>true</value> </property> <property> <name>yarn.log-server.url</name> <value>http://hadoop1:19888/jobhistory/logs</value> </property> <property> <name>yarn.log-aggregation.retain-seconds</name> <value>604800</value> </property>
6)配置Hadoop节点运行的服务器
# 同理,把文件名修改为 workers
# 然后把默认的内容,修改成Hadoop1
# 接着上面的内容,你现在所处的位置是/export/servers/wfb-hadoop/hadoop-3.3.0/etc/hadoop
# 先运行2次,cd .. 退回到/export/servers/wfb-hadoop/hadoop-3.3.0
# 最后再格式化
bin/hdfs namenode -format
# 启动 HDFS
sbin/start-dfs.sh
# 启动YARN
sbin/start-yarn.sh
# 输入jps
jps
效果如下:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。