当前位置:   article > 正文

运行PySpark项目报错SparkException: Python worker failed to connect back.的解决方法

python worker failed to connect back

目录

1.背景

2.报错原因

3.解决方法

4.测试代码


1.背景

        在未配置Spark环境的Win10系统上使用PyCharm平台运行PySpark项目,但是已通过

pip install pyspark 安装了pyspark库,代码段无报错,但是运行时出现这种报错:

2.报错原因

        Spark找不到Python环境的位置,需要指定Python环境.

3.解决方法

        (1)如图所示,进入编辑运行配置:

        (2)如图所示,点击编辑环境变量:

        (3)如图所示,添加PYSPARK_PYTHON的环境变量:

        (4)点击OK,点击Apply.再次运行项目:

         报错已被解决.

4.测试代码

        该测试代码是一个简单的词频统计,一并发出来吧:

  1. import pyspark
  2. from pyspark import SparkConf
  3. # 单词统计
  4. def word_statistics(words):
  5. conf = pyspark.SparkConf().setMaster("local[*]").setAppName("Word_Statistics")
  6. sc = pyspark.SparkContext(conf=conf)
  7. words = words
  8. rdd = sc.parallelize(words)
  9. counts = rdd.map(lambda w: (w, 1)).reduceByKey(lambda a, b: a+b)
  10. print(counts.collect())
  11. if __name__ == "__main__":
  12. words = ["test1", "test2", "test1", "test2", "test3", "test2", "test1", "test5", "test4", "test2", "test6", "test7"]
  13. word_statistics(words)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/496290
推荐阅读
相关标签
  

闽ICP备14008679号