搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
Gausst松鼠会
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
OCR学习之一:OCR简介_ocresf
2
kafka中topic的partition数量和customerGroup的customer数量关系以及storm消费kafka时并行度设置问题总结:_为什么kafka消费并行度等于partition数
3
算法:哈希表_哈希表算法
4
盘点 4 个 GitHub 上令人惊艳的项目!_maxkb框架对比
5
数据库设计 注意项:
6
getStorageSync获取到的是undefined 微信小程序
7
SpringBoot2入门必读(4):Spring boot集成Mybatis(一)_spring+mybatis boot2
8
豆瓣8分+的项目管理书单,送给你
9
python使用scipy.optimize.least_squares进行最小二乘优化_least square python optimal
10
supermap iserver 9.1.0发布数据库型工作空间_超图连接pg数据库发布服务
当前位置:
article
> 正文
跟天齐老师学Spark(4)--Spark整合hdfs_spark 连接hdfs 高可用集群 core-site.xml hdfs-site.xml
作者:Gausst松鼠会 | 2024-06-02 14:02:28
赞
踩
spark 连接hdfs 高可用集群 core-site.xml hdfs-site.xml
spark整合hdfs:
需求:从hdfs中读取数据,用spark计算,再写到hdfs中。
启动zookeeper;
启动hadoop的hdfs;
然后启动spark(我们这里就不启动高可用集群了,这里只启动一个Master);
向spark集群提交任务;
spark-shell中写的程序仅仅是做实验;
实际开发中,是先在IDE中开发spark程序,然后打包,提交到集群。然后用
脚本或调度框架来调度。
我们这里在spark-shell中写一个spark程序:
读取hdfs中的数据的话,先指定hdfs的地址,你可以将hadoop的两个配置文件hdfs-site.xml和core-site.xml拷贝到spark的conf目录下,但是我们这里因为是测试,所以hdfs的地址写死了:
sc.textFile("hdfs://hadoop01:9000/wc").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortBy(_._2,false).saveAsTextFile("hdfs://hadoop01:9000/wc/out05")
上面的spark-shell只是在测试或者学习的时候常用的方式。
在生产中,一般是在开发工具中开发好程序,然后将程序打成jar包,在提交到spark集群上运行。
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/662992
推荐阅读
article
Spark
streaming
直连Kafka分区问题_spark
streaming
kafka
6个...
Spark
streaming
直连Kafka的情况下:一个topic对应的分区数量N决定spark
streaming
分区...
赞
踩
article
Spark
Streaming
消费
Kafka
数据的两种方案...
下午的时候翻微信看到大家在讨论
Spark
消费
Kafka
的方式,官网中就有答案,只不过是英文的,当然很多博客也都做了介绍,...
赞
踩
article
Hadoop
基础教程
-第3章
HDFS
:
分布式文件系统
(
3.4
HDFS
集群模式)_头歌
hadoop
...
第3章
HDFS
:
分布式文件系统
3.4
HDFS
集群模式节点 IP 角色 node1 192.168.80...
赞
踩
article
通过
Spark
Mllib中
决策树
模型,训练通过其他信息来判断
婚姻状况
_
python
spark
m...
简介尝试通过
Spark
上的
决策树
模型来训练模型,通过人群的其他信息来判断
婚姻状况
此项目基于UCI上的开放数据 adult...
赞
踩
article
万字详解
Spark
Core
开发
调优
(
建议
收藏)...
前两天和大家分享了一篇关于
Spark
Core
数据倾斜
调优
相关的文章,今天继续和大家分享一篇关于
Spark
开发
调优
...
赞
踩
article
【
spark
】
什么
是
随机
森林
_
spark
随机
森林
...
1.
什么
是
随机
森林
随机
森林
就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一...
赞
踩
article
【
Spark
MLlib
】
(
五)
随机
森林
(
Random
Forest
(1)...
随机
森林
就是构建多棵决策树投票,在构建多棵树过程中,引入
随机
性,一般体现在两个方面,一是每棵树使用的样本进行
随机
抽样,分...
赞
踩
article
HDFS
_3.一个
hdfs
集群包括两大部分
,
即
namenode
与
datanode
。
一般来说
,
...
(一)
HDFS
简介及其基本概念
HDFS
(Hadoop Distributed File System)是hadoop...
赞
踩
article
大
数据
学习笔记-
HDFS
(
四)——
HDFS
架构
_
大
数据
主从
架构
...
Hadoop Distribute File System,Hadoop分布式文件系统,
HDFS
是Hadoop核心组件之...
赞
踩
article
HDFS
:
架构
详解_
hdfs
架构
...
HDFS
架构
解读。_
hdfs
架构
hdfs
架构
1
HDFS
简介 1.1 基本概念 Hadoop...
赞
踩
article
HDFS
架构
剖析_简述
hdfs
架构
...
HDFS
架构
剖析_简述
hdfs
架构
简述
hdfs
架构
目录 一、
HDFS
架构
整体概述...
赞
踩
article
hadoop
与
spark
_
hadoop
的
中间
数据
存储
于
hdfs
,
spark
的
中间
数据
存储
于(...
hadoop
与
spark
的
区别_
hadoop
的
中间
数据
存储
于
hdfs
,
spark
的
中间
数据
存储
于(
hadoop
的
...
赞
踩
article
Spark
Hadoop
集群部署与
Spark
操作HDFS运行详解---
Spark
学习笔记10_reg...
目前spark的Run on的hadoop版本大多是hadoop2以上,但是实际上各个公司的生产环境不尽相同,用到2.0...
赞
踩
article
Spark
、
Hadoop
、
HDFS
简介_简述
hdfs
与
spark
的特点...
参考《Python+
Spark
2.0+
Hadoop
机器学习与大数据实战_林大贵(著) 清华大学出版社》1
、
Spark
(...
赞
踩
article
大
数据
HDFS
分布式文件系统
详细介绍_
hdfs
是
什么
技术框架...
1 文件系统的基本概述 文件系统定义:文件系统
是
一种存储和组织计算机
数据
的方法,它使得对其访问和查找变得容易。 文件...
赞
踩
article
Hadoop
HDFS
(
分布式文件系统
)_了解
分布式文件系统
hdfs
...
为什么要分布式存储数据,假设一个文件有100tb,我们就把文件划分为多个部分,放入到多个服务器,靠数量取胜,多台服务器组...
赞
踩
article
ASP.NET
Core
8.0
WebApi
从零开始学习
JWT
登录认证_net8
webapi
添...
我一起写后端Api我都是直接裸连的,但是现在为了规范一些,我还是打算上一个
JWT
功能Jwt其实也不是特别难,就是第一次配...
赞
踩
article
Megatron
-LM源码系列(二):
Tensor
模型
并行和
Sequence
模型
并行训练_megat...
模型
并行训练实现的核心代码在`
megatron
/
core
/`目录下,按`README.md`介绍来说,`
Megatron
...
赞
踩
article
spark
机器学习
电影
推荐_
java
spark
电影
推荐 matrixfactorzationmo...
package recommendimport org.apache.log4j.{Level, Logger}impo...
赞
踩
article
【
大
数据
篇】
Spark
:
大
数据
处理
的
璀璨之星_
大
数据
处理
技术
spark
...
结尾彩蛋
:
李华深吸了一口气,决定采取一系列步骤来定位和解决问题。首先,他回滚了
Spark
作业
的
最新变更,排除了因代码更新...
赞
踩
相关标签
spark
Scala
Spark
大数据
编程语言
hadoop
数据库
redis
机器学习
算法
spark-ml
随机森林
hdfs
学习
云计算
分布式
架构