当前位置:   article > 正文

pyspark环境配置_os.environ['pyspark_python']

os.environ['pyspark_python']

第一:下载所有hadoop二进制包

第二:下载spark

第三:下载java

第四:下载anancode

# 创建虚拟环境 pyspark, 基于Python 3.8
conda create -n pyspark python=3.8

# 切换到虚拟环境内
conda activate pyspark

# 在虚拟环境内安装包
pip install pyhive pyspark jieba -i https://pypi.tuna.tsinghua.edu.cn/simple 

通过pycharm写代码:

  1. # coding:utf8
  2. from pyspark import SparkConf, SparkContext
  3. import os
  4. os.environ['JAVA_HOME'] = r"C:\Java\jdk1.8.0_201"
  5. os.environ['SPARK_HOME'] = r"D:\spark-3.1.2-bin-hadoop2.7"
  6. os.environ['PYSPARK_PYTHON'] = r"D:\anaconda3\envs\pyspark\python.exe"
  7. os.environ['HADOOP_HOME']=r"D:\hadoop-2.7.7"
  8. if __name__ == '__main__':
  9. conf = SparkConf().setAppName("helloword")
  10. # 通过SparkConf对象构建SparkContext对象
  11. sc = SparkContext(conf=conf)
  12. file_rdd = sc.textFile("./myfile.text")
  13. words_rdd = file_rdd.flatMap(lambda line: line.split(" "))
  14. # 将单词转换为元组对象, key是单词, value是数字1
  15. words_with_one_rdd = words_rdd.map(lambda x: (x, 1))
  16. # 将元组的value 按照key来分组, 对所有的value执行聚合操作(相加)
  17. result_rdd = words_with_one_rdd.reduceByKey(lambda a, b: a + b)
  18. # 通过collect方法收集RDD的数据打印输出结果
  19. print(result_rdd.collect())

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/66449
推荐阅读
相关标签
  

闽ICP备14008679号