hadoop集群spark配置，jupyter notebook，ubuntu_ubuntu jupyter spark 集群

作者：小小林熬夜学编程 | 2024-04-13 12:48:42

踩

ubuntu jupyter spark 集群

下载安装jupyter notebook，并配置，详见另一篇博客，jupyter notebook配置
安装python包 findspark、pyspark。
用findspark.init函数配置集群中spark-client2路径，python路径。

import findspark

findspark.init(spark_home="/usr/hdp/current/spark2-client/",python_path="/usr/bin/python3")

from pyspark import SparkConf,SparkContext,SQLContext1
2
3
4
5

导入sparkcontext

conf = SparkConf().setMaster("yarn").setAppName("http")

sc = SparkContext(conf = conf)

sqlContext = SQLContext(sc)1
2
3
4
5

读取HDFS中的CSV文件

df2 = sqlContext.read.schema(schema).option("header", "false").option("delimiter","\t").option("mode", "DROPMALFORMED").csv("/s_tmp/100k_rows.csv")1

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/416535