赞
踩
本关任务:根据编程要求,完成任务。
打开右侧命令行窗口,完成任务。
启动 Hadoop 服务,然后将 Linux 系统本地文件 /data/bigfiles/word.txt
上传到 HDFS 中的根目录 /
下。
编写独立应用程序,读取 HDFS 系统文件中的 /word.txt
,统计出该文件的行数,打印输出统计的结果;
注意添加编码声明:
# -*- coding: utf-8 -*-
,支持中文格式。
通过 spark-submit
将该程序提交到 Spark 中运行,并将运行结果保存到 /root/result.txt
文件中。
输出示例如下:
该文件的总行数为:n
HDFS 通信端口:9000
平台将对你编写的代码进行评测,如果与预期结果一致,则通关,否则测试失败。
start-all.sh
hdfs dfs -put /data/bigfiles/word.txt /
vim count.py
# -*- coding: utf-8 -*-
from pyspark import SparkContext
################ Begin ################
# 创建SparkContext对象
sc = SparkContext("local", "LineCountApp")
# 读取HDFS上的文本文件
textFile = sc.textFile("hdfs://localhost:9000/word.txt")
# 计算行数
lineCount = textFile.count()
# 打印行数
print("\n该文件的总行数为:%d" % lineCount)
# 关闭SparkContext对象
sc.stop()
################ End ################
spark-submit count.py > /root/result.txt
答案参考自张健老师
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。