当前位置:   article > 正文

scala连接mongodb_Spark教程(二)Spark连接MongoDB

scala 连接mongodb spark读取mongodb数据 csdn

如何导入数据

数据可能有各种格式,虽然常见的是HDFS,但是因为在Python爬虫中数据库用的比较多的是MongoDB,所以这里会重点说说如何用spark导入MongoDB中的数据。

当然,首先你需要在自己电脑上安装spark环境,简单说下,在这里下载spark,同时需要配置好JAVA,Scala环境。

这里建议使用Jupyter notebook,会比较方便,在环境变量中这样设置

PYSPARK_DRIVER_PYTHON=jupyter

PYSPARK_DRIVER_PYTHON_OPTS=notebook ./bin/pyspark

如果你的环境中有多个Python版本,同样可以制定你想要使用的解释器,我这里是python36,根据需求修改。

PYSPARK_PYTHON=/usr/bin/python36

启动命令

进入spark根目录,./bin/pyspark这是最简单的启动命令,默认会打开Python的交互式解释器,但是由于我们上面有设置过,会打开Jupyter notebook,接下来变成会方便很多。

先来看看最简单的例子:

>>> textFile = spark.read.text("README.md")

>>> textFile.count() # Number of rows in this DataFrame

126

>>> textFile.first() # First row in this DataFrame

Row(value=

本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/734468
推荐阅读
相关标签
  

闽ICP备14008679号