搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
木道寻08
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
做程序猿的老婆应该注意的一些事情
2
Java实现数据结构——双链表
3
git基本使用步骤_git health
4
Hadoop 之 Hive 4.0.0-alpha-2 搭建(八)_hive alpha
5
五、Pyqt5事件、信号和槽
6
基于jsp的高校网上订餐系统设计与实现(项目报告+答辩PPT+源代码+数据库+截图+部署视频)_基于jsp和数据库实现网上订餐系统
7
bip32,39,44...........在线工具_bip32在线计算
8
重新开始!大前端+实时渲染+Al_前端实时渲染
9
AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.03.31-2024.04.05_vllm视觉语言大模型
10
如何训练一个大语言模型(LLMs)_大语言模型训练过程
当前位置:
article
> 正文
自我总结ing_spark学习心得
作者:木道寻08 | 2024-07-13 14:08:20
赞
踩
spark学习心得
学习Spark的心得体会
自从大二学习大数据以来,我知道了什么是大数据,大数据是一种现象,并非是一种技术,大数据的体量要特别大,类别要特别多.大数据是海量数据+复杂数据类型。
大数据解决的问题: 1.快速的数据流转(流处理,实时处理,批处理),2.多样的数据类型(结构化,半结构化,非结构化),3.海量的数据规模(TB,PB,EB)。
大数据技术定义: 是指伴随着大数据的采集、输、存储、分析和应用的相关技术是一系列使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理,从而获得分析和预测结果的一系列数据处理和分析技术。
大数据技术的应用有以下几个层面,数据采集,数据存储和管理,数据处理与分析,数据隐私和安全,大数据计算模式:批处理计算,流计算,图计算,查询分析计算.
我们还学习了如何搭建Hadoop平台(核心能力如下) HDFS、MapReduce、hive数据仓库等
通过本学期的学习,我知道了什么是Spark,Apache Spark 是一种用于大数据工作负载的分布式开源处理系统。它使用内存中缓存和优化的查询执行方式,可针对任何规模的数据进行快速分析查询。它提供使用 Java、Scala、Python 和 R 语言的开发 API,支持跨多个工作负载重用代码—批处理、交互式查询、实时分析、机器学习和图形处理等。您会发现各行业的众多组织都使用它,其中包括 FINRA、Yelp、Zillow、DataXu、Urban Institute 和 CrowdStrike。
Hadoop 是一种开源框架,它将 Hadoop 分布式文件系统 (HDFS) 用于存储,将 YARN 作为管理由不同应用程序所使用的计算资源的方式,并且实现 MapReduce 编程模型来充当执行引擎。在一般 Hadoop 实现中,还会部署不同的执行引擎,如 Spark、Tez 和 Presto。
Spark 是一种专门用于交互式查询、机器学习和实时工作负载的开源框架。它没有自己的存储系统,但会在其他存储系统,如 HDFS,或其他热门存储,如
Amazon Redshift
、
Amazon S3
、Couchbase、Cassandra 等之上运行分析。Hadoop 上的 Spark 会利用 YARN 来分享常见的集群和数据集作为其他 Hadoop 引擎,确保服务和响应的一致性水平。
在实际的操作中,还是会遇到很多问题,语法的错误,一行里参杂着多行代码,在编程中逻辑不够严谨,逻辑错误代码的不熟悉,英语也要多学习,单词的词汇量也不大,在学习Spark语言的时候也是有狠多的疑惑,但是,没能提起勇气去问老师,自己下来花了比较长的时间才理解,真的是有些许愚蠢,也有很多没有掌握的地方,感觉自己学了,又感觉没有学,总的来说,觉得自己很差劲,成为了自己讨厌的人,又总是在为自己的失找借口,学习是一方面,成长又是一方面,人们总是喜欢被人夸赞自己,却不知道这是一把刺向自己的弱点的剑
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/木道寻08/article/detail/819910
推荐阅读
article
大学生
Spark
速成:
期末
不挂的秘籍_用
spark
和
scala
做
期末
项目...
通过本文的
Spark
速成策略,
大学生
可以在短时间内掌握
Spark
的关键技能,并在
期末
考试中取得优异成绩。记住,实践是学习...
赞
踩
article
spark
期末
复习_
spark
期末
复习...
Scalaobject HelloWorld {def main(args: Array[String]): Unit ...
赞
踩
article
Spark
--
Spark
编程
基础
和
编程
进阶知识总结(第三章
和
第四章)_
spark
基础
实验
和
编程
基础
总...
在RDD的执行过程中,真正的计算发生在行动操作中,在前面的所有转换,
spark
只是记录下转换操作应用的一些
基础
数据集
和
R...
赞
踩
article
Spark
性能
优化之-
资源
调优
_
本地
spark
读写
性能
如何...
文章目录概述
Spark
作业基本运行原理
资源
参数
调优
num-executorsexecutor-memoryexecuto...
赞
踩
article
Synapse
Spark
...
【代码】Synapse
Spark
。Synapse
Spark
rm -r dp203...
赞
踩
article
从
Spark
离线
数仓
到
Flink
实时
数仓
:实战指南...
咱先唠唠为啥要搞这个转变。在数据处理这旮旯,
离线
数仓
和
实时
数仓
那可太不一样了。
离线
数仓
就像老牛拉车,处理数据得等一阵子,...
赞
踩
article
Spark
Delta
Lake...
【代码】
Spark
Delta
Lake。
Spark
Delta
Lake rm -r ...
赞
踩
article
spark
shuffle
写操作——
BypassMergeSortShuffleWriter
...
每一个分区都生成一个临时文件,创建DiskBlockObjectWriter对象,放入partitionWriters。...
赞
踩
article
Spark
ML --
LightGBM
On
Spark
回归
LightGBM
Regressor示例...
向导MAVEN测试数据代码示例结果MAVEN
com
.
microsoft
.m...
赞
踩
article
spark
根据
parquet
文件 建表
_
spark
-
shell
根据
parquet
文件建表和写...
def save
_
table(
spark
: SparkSession, partitionCondition:Strin...
赞
踩
article
[机器学习]
LightGBM
on
Spark
(MML
Spark
) 使用完全手册_
spark
l...
一
Spark
上训练模型优势与劣势(1)机器学习算法一般都有很多个步骤迭代计算的过程,机器学习的计算需要在多次迭代后获得...
赞
踩
article
Spark
Streaming
原理与代码实例讲解_
spark
streaming
大
数据处理
项目
源代码
...
Spark
Streaming
是Apache
Spark
生态系统中的核心组件之一,是建立在
Spark
Core之上的实...
赞
踩
article
spark
withColumn
的
使用
(笔记)...
withColumn
():是Apache Spark中用于DataFrame操作
的
函数之一,它
的
作用是在DataFram...
赞
踩
article
2024年最全[新星
计划
]通过
扩展
Spark
SQL
,
打造自己
的
大
数据分析
引擎(3)
,
2024年...
Spark
Strategies包含了一系列特定
的
Strategies
,
这些Strategies是继承自QueryPlan...
赞
踩
article
[原]
RStudio
Spark
/
Leaflet
与
GIS
最佳
实践...
近年来,基于
Spark
的大数据并行计算方案日渐成熟,在
GIS
领域有了很多
最佳
实践。过去,大多数数据分析师可能都是基于...
赞
踩
article
Spark
Streaming
基于
kafka
的
Direct
详解_
sparkstreaming
和ka...
本博文主要包括一下内容: 1,
Spark
Streaming
on Kafka
Direct
工作原理机制 2,
Spark
S...
赞
踩
article
【
Spark
MLlib
】(五)
随机
森林
(
Random
Forest
_
spark
随机
森林
项目...
随机
森林
就是构建多棵决策树投票,在构建多棵树过程中,引入
随机
性,一般体现在两个方面,一是每棵树使用的样本进行
随机
抽样,分...
赞
踩
article
大
数据
-计算引擎-
Spark
(一):概述【基于内存
的
大
数据
分析
引擎】【核心模块:
Spark
Core
...
Spark
是一种基于内存
的
快速、通用、可扩展
的
大
数据
分析
计算引擎。在之前
的
学习中,Hadoop
的
MapReduce...
赞
踩
article
大
数据
算法题(
flink
spark
sql
)_
flink
sql
练习题
...
1 求(event userid time)格式下不同event(比如浏览、点击、购买等行为)的pv uv。//最普通的...
赞
踩
article
Hadoop
生态简介,
Hive
、
Spark
、
HBase
等...
Hadoop
生态全景介绍,
Spark
、
Hive
、
HBase
等_hadoop生态hadoop生态 ...
赞
踩
相关标签
spark
大数据
分布式
scala
性能优化
big data
flink
实时数仓
离线数仓
标签体系
linux
SparkML
LightGBM
MML