赞
踩
注:本文章是在阿里云 centos7.3 上运行 spark。
目录
spark是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序 。
参考:【Linux】CentOS7下安装JDK详细过程,其中注意【JDK和Open JDK】平常使用的JDK和Open JDK有什么区别。
安装时出现yum包依赖的python2.7被修改的问题(报错信息:[Errno 5] [Errno 2] No such file or directory),因此还需要修改 /usr/bin/yum ;/usr/libexec/urlgrabber-ext-down 两个文件,把他们的文件开头改成 /usr/bin/python2.7
然后执行
- yum clean all
- yum makecache
centos上安装hadoop,参考Hadoop安装教程_伪分布式配置_CentOS6.4/Hadoop2.6.0
参考:Spark2.1.0+入门:Spark的安装和使用(Python版)
坑:在~/.bashrc 里配置环境变量时,PYTHONPATH里py4j的版本号要根据SPARK_HOME/python/lib/目录里自己的版本号一致,否则会出现找不到找不到py4j-0.10.7-src.zip的错误。
在 用户目录中创建test.py文件
- from pyspark import SparkContext
- sc = SparkContext( 'local', 'test')
- logFile = "file:///usr/local/spark/README.md"
- logData = sc.textFile(logFile, 2).cache()
- numAs = logData.filter(lambda line: 'a' in line).count()
- numBs = logData.filter(lambda line: 'b' in line).count()
- print('Lines with a: %s, Lines with b: %s' % (numAs, numBs))
保存代码后,通过如下命令执行:
python3 ~/test.py
运行结果:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。