当前位置:   article > 正文

Spark基础入门_saprk sc

saprk sc

Spark简介

       Apache Spark是一个用于实时处理的开源集群计算框架。 它是Apache软件基金会中最成功的项目。 Spark已成为大数据处理市场的领导者。 今天,Spark被亚马逊,eBay和雅虎等主要厂商采用。 许多组织在具有数千个节点的集群上运行Spark。

        MR的这种方式对数据领域两种常见的操作不是很高效。第一种是迭代式的算法。比如机器学习中ALS、凸优化梯度下降等。这些都需要基于数据集或者数据集的衍生数据反复查询反复操作。MR这种模式不太合适,即使多MR串行处理,性能和时间也是一个问题。数据的共享依赖于磁盘。另外一种是交互式数据挖掘,MR显然不擅长。

spark安装
  配置:
  slaves

  1. hadoop-senior01.zhangbk.com
  2. hadoop-senior02.zhangbk.com

  spark-env.sh

  1. SPARK_MASTER_HOST=hadoop-senior03.zhangbk.com
  2. SPARK_MASTER_PORT=7077
  3. export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=7077 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs://ns1/spark-history"

vi spark-defaults.conf

  1. spark.master spark://hadoop-senior01.zhangbk.com:7077
  2. spark.eventLog.enabled true
  3. spark.eventLog.dir hdfs://ns1/spark-history
  4. spark.eventLog.compress true

创建目录 hdfs dfs -mkdir /spark-history

由于是Hadoop集群HA,所以需将hdfs-site.xml 拷贝到./conf目录下  传输到其他节点
  
启动spark

  1.   sbin/start-all.sh
  2.   sbin/start-history-server.sh


登陆web页面
  http://192.168.159.21:8080

执行第一个spark程序

  1. bin/spark-submit \
  2. --class org.apache.spark.examples.SparkPi \
  3. --master spark://hadoop-senior01.zhangbk.com:7077 \
  4. --executor-memory 1G \
  5. --total-executor-cores 2 \
  6. examples/jars/spark-examples_2.11-2.3.0.jar \
  7. 100

参数说明:
--class CLASS_NAME    Your application's main class (for Java / Scala apps)
--master spark://master01:7077 指定Master的地址
--executor-memory 1G 指定每个executor可用内存为1G
--total-executor-cores 2 指定每个executor使用的cup核数为2个
该算法是利用蒙特·卡罗算法求PI

Spark应用提交
一旦打包好,就可以使用bin/spark-submit脚本启动应用了. 这个脚本负责设置spark使用的classpath和依赖,支持不同类型的集群管理器和发布模式:

  1.   bin/spark-submit \
  2.   --class <main-class>
  3.   --master <master-url> \
  4.   --deploy-mode <deploy-mode> \
  5.   --conf <key>=<value> \
  6.   ... # other options
  7.   <application-jar> \
  8.   [application-arguments]

一些常用选项:
1)    --class: 你的应用的启动类 (如 org.apache.spark.examples.SparkPi)
2)    --master: 集群的master URL (如 spark://23.195.26.187:7077)
3)    --deploy-mode: 是否发布你的驱动到worker节点(cluster) 或者作为一个本地客户端 (client) (default: client)*
4)    --conf: 任意的Spark配置属性, 格式key=value. 如果值包含空格,可以加引号“key=value”. 缺省的Spark配置
5)    application-jar: 打包好的应用jar,包含依赖. 这个URL在集群中全局可见。 比如hdfs:// 共享存储系统, 如果是 file:// path, 那么所有的节点的path都包含同样的jar.
6)    application-arguments: 传给main()方法的参数

启动Spark shell

  1. bin/spark-shell \
  2. --master spark://hadoop-senior01.zhangbk.com:7077 \
  3. --executor-memory 2g \
  4. --total-executor-cores 2

注意:
如果启动spark shell时没有指定master地址,但是也可以正常启动spark shell和执行spark shell中的程序,
其实是启动了spark的cluster模式,如果spark是单节点,并且没有指定slave文件,这个时候如果打开spark-shell
默认是local模式
Local模式是master和worker在同同一进程内
Cluster模式是master和worker在不同进程内 
Spark Shell中已经默认将SparkContext类初始化为对象sc。用户代码如果需要用到,则直接应用sc即可

在Spark shell中编写WordCount程序
在Spark shell中用scala语言编写spark程序

sc.textFile("hdfs://ns1/spark/input/RELEASE").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).saveAsTextFile("hdfs://ns1/spark/output/out1")

说明:
sc是SparkContext对象,该对象是提交spark程序的入口
textFile("hdfs://ns1/spark/input/RELEASE")是从hdfs中读取数据
flatMap(_.split(" "))先map在压平
map((_,1))将单词和1构成元组
reduceByKey(_+_)按照key进行reduce,并将value累加
saveAsTextFile("hdfs://ns1/spark/output/out1")将结果写入到hdfs中

IDEA中编写WordCount程序

  1. package com.zhangbk.spark
  2. import org.apache.spark.{SparkConf, SparkContext}
  3. import org.slf4j.LoggerFactory
  4. object WordCount {
  5. val logger = LoggerFactory.getLogger(WordCount.getClass)
  6. def main(args: Array[String]) {
  7. val conf = new SparkConf().setAppName("WC")
  8. val sc = new SparkContext(conf)
  9. sc.textFile(args(0)).flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_,
  10. 1).sortBy(_._2, false).saveAsTextFile(args(1))
  11. logger.info("=========================completed================================")
  12. sc.stop()
  13. }
  14. }

配置pom.xml

  1. <!-- wordcount pom.xml-->
  2. <?xml version="1.0" encoding="UTF-8"?>
  3. <project xmlns="http://maven.apache.org/POM/4.0.0"
  4. xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
  5. xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
  6. <parent>
  7. <artifactId>spark</artifactId>
  8. <groupId>com.zhangbk</groupId>
  9. <version>1.0-SNAPSHOT</version>
  10. </parent>
  11. <modelVersion>4.0.0</modelVersion>
  12. <artifactId>wordcount</artifactId>
  13. <dependencies>
  14. <dependency>
  15. <groupId>org.scala-lang</groupId>
  16. <artifactId>scala-library</artifactId>
  17. <version>${scala.version}</version>
  18. <!--<scope>provided</scope>-->
  19. </dependency>
  20. <dependency>
  21. <groupId>org.apache.spark</groupId>
  22. <artifactId>spark-core_2.11</artifactId>
  23. <version>${spark.version}</version>
  24. <!--<scope>provided</scope>-->
  25. </dependency>
  26. <dependency>
  27. <groupId>org.apache.hadoop</groupId>
  28. <artifactId>hadoop-client</artifactId>
  29. <version>${hadoop.version}</version>
  30. <!--<scope>provided</scope>-->
  31. </dependency>
  32. <!-- Logging -->
  33. <dependency>
  34. <groupId>org.slf4j</groupId>
  35. <artifactId>jcl-over-slf4j</artifactId>
  36. <version>${slf4j.version}</version>
  37. </dependency>
  38. <dependency>
  39. <groupId>org.slf4j</groupId>
  40. <artifactId>slf4j-api</artifactId>
  41. <version>${slf4j.version}</version>
  42. </dependency>
  43. <dependency>
  44. <groupId>org.slf4j</groupId>
  45. <artifactId>slf4j-log4j12</artifactId>
  46. <version>${slf4j.version}</version>
  47. </dependency>
  48. <dependency>
  49. <groupId>log4j</groupId>
  50. <artifactId>log4j</artifactId>
  51. <version>${log4j.version}</version>
  52. </dependency>
  53. <!-- Logging End -->
  54. </dependencies>
  55. <build>
  56. <finalName>wordcount</finalName>
  57. <plugins>
  58. <plugin>
  59. <groupId>org.apache.maven.plugins</groupId>
  60. <artifactId>maven-assembly-plugin</artifactId>
  61. <version>2.2-beta-5</version>
  62. <configuration>
  63. <archive>
  64. <manifest>
  65. <mainClass>com.zhangbk.spark.WordCount</mainClass>
  66. </manifest>
  67. </archive>
  68. <descriptorRefs>
  69. <descriptorRef>jar-with-dependencies</descriptorRef>
  70. </descriptorRefs>
  71. </configuration>
  72. </plugin>
  73. </plugins>
  74. </build>
  75. </project>
  76. <!-- spark pom.xml-->
  77. <?xml version="1.0" encoding="UTF-8"?>
  78. <project xmlns="http://maven.apache.org/POM/4.0.0"
  79. xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
  80. xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
  81. <modelVersion>4.0.0</modelVersion>
  82. <groupId>com.zhangbk</groupId>
  83. <artifactId>spark</artifactId>
  84. <packaging>pom</packaging>
  85. <version>1.0-SNAPSHOT</version>
  86. <modules>
  87. <module>wordcount</module>
  88. </modules>
  89. <properties>
  90. <mysql.version>6.0.5</mysql.version>
  91. <spring.version>4.3.6.RELEASE</spring.version>
  92. <spring.data.jpa.version>1.11.0.RELEASE</spring.data.jpa.version>
  93. <log4j.version>1.2.17</log4j.version>
  94. <quartz.version>2.2.3</quartz.version>
  95. <slf4j.version>1.7.22</slf4j.version>
  96. <hibernate.version>5.2.6.Final</hibernate.version>
  97. <camel.version>2.18.2</camel.version>
  98. <config.version>1.10</config.version>
  99. <jackson.version>2.8.6</jackson.version>
  100. <servlet.version>3.0.1</servlet.version>
  101. <net.sf.json.version>2.4</net.sf.json.version>
  102. <activemq.version>5.14.3</activemq.version>
  103. <spark.version>2.1.1</spark.version>
  104. <scala.version>2.11.8</scala.version>
  105. <hadoop.version>2.5.0</hadoop.version>
  106. </properties>
  107. <build>
  108. <plugins>
  109. <plugin>
  110. <groupId>org.apache.maven.plugins</groupId>
  111. <artifactId>maven-compiler-plugin</artifactId>
  112. <version>3.6.0</version>
  113. <configuration>
  114. <source>1.8</source>
  115. <target>1.8</target>
  116. </configuration>
  117. </plugin>
  118. <plugin>
  119. <groupId>net.alchim31.maven</groupId>
  120. <artifactId>scala-maven-plugin</artifactId>
  121. <version>3.2.2</version>
  122. <executions>
  123. <execution>
  124. <goals>
  125. <goal>compile</goal>
  126. <goal>testCompile</goal>
  127. </goals>
  128. </execution>
  129. </executions>
  130. </plugin>
  131. </plugins>
  132. <pluginManagement>
  133. <plugins>
  134. <plugin>
  135. <groupId>org.apache.maven.plugins</groupId>
  136. <artifactId>maven-assembly-plugin</artifactId>
  137. <version>2.2-beta-5</version>
  138. <executions>
  139. <execution>
  140. <id>make-assembly</id>
  141. <phase>package</phase>
  142. <goals>
  143. <goal>single</goal>
  144. </goals>
  145. </execution>
  146. </executions>
  147. </plugin>
  148. </plugins>
  149. </pluginManagement>
  150. </build>
  151. </project>

执行WordCount程序

  1. bin/spark-submit \
  2. --class com.zhangbk.spark.WordCount \
  3. --master spark://hadoop-senior01.zhangbk.com:7077 \
  4. --executor-memory 1G \
  5. --total-executor-cores 2 \
  6. spark-jars/wordcount-jar-with-dependencies.jar \
  7. hdfs://ns1/spark/input/RELEASE \
  8. hdfs://ns1/spark/output/out5

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/喵喵爱编程/article/detail/816390
推荐阅读
相关标签
  

闽ICP备14008679号