mkdir input
cp etc/hadoop/*.xml input
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.1.jar grep input output 'dfs[a-z.]+'
cat output/*

输出结果：

4.2 伪分布式模式

4.2.1 运行

① 配置etc/hadoop/core-site.xml


<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

② 配置etc/hadoop/hdfs-site.xml


<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

③ 配置ssh免密登录


ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys

④ 启动

1) 格式化文件系统

bin/hdfs namenode -format

2) 启动NameNode和DataNode

sbin/start-dfs.sh

3) 浏览器访问NameNode的web接口，默认在9870端口（老版本为50070），即：http://localhost:9870/

4) 在HDFS上创建执行上述MapReduce作业所需的目录


# 在hdfs上创建目录
bin/hdfs dfs -mkdir /user
bin/hdfs dfs -mkdir /user/<username>
# 复制本地文件到hdfs指定目录
bin/hdfs dfs -mkdir input
bin/hdfs dfs -put etc/hadoop/*.xml input

5) 执行提供的样例作业

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.1.jar grep input output 'dfs[a-z.]+'

6) 检查输出

bin/hdfs dfs -cat output/*

结果同上。

7) 关闭服务

sbin/stop-dfs.sh

4.2.2 单节点YARN

伪分布式模式下，通过设置一些参数和启动ResourceManager, NodeManager，我们可以在YARN上运行MapReduce作业，具体操作如下：

① 修改YARN的配置

1) etc/hadoop/mapred-site.xml


<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.application.classpath</name>
        <value>$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*:$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*</value>
    </property>
</configuration>

2) etc/hadoop/yarn-site.xml


<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.env-whitelist</name>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>
</configuration>

② 启动ResourceManager和NodeManager

sbin/start-yarn.sh

③浏览器访问ResourceManager的web接口，默认在8088端口，即：http://localhost:8088/

④ 运行上述作业，并在浏览器观察对应记录

⑤ 关闭YARN

sbin/stop-yarn.sh

4.3 全分布式模式

见下一篇。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/盐析白兔/article/detail/429254