搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
Gausst松鼠会
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
pythonjieba情感分析步骤_基于jieba和doc2vec的中文情感语料分类
2
《前端面试题》- TypeScript - TypeScript的优/缺点_当面面试官问为何使用typescript
3
PCB安规设计 | 一、电气间隙和爬电距离_pcb电气间隙和爬电距离
4
计算机视觉论文-2021-06-24_fairness for image generation with uncertain sensi
5
托管类调用非托管类(C#,C++,CLI,传递指针数组)_托管类成员不能是非托管类类型
6
【ARMv7-A】——处理器模式_arm svc模式
7
android 本地存储
8
英特尔开发套件在JAVA环境实现ADAS道路识别演示
9
CDH集群hue继承hdfs遇到问题_hdfs权限继承无效
10
【汽车之家注册/登录安全分析报告】
当前位置:
article
> 正文
常见的七种Hadoop和Spark项目案例_spark 和hadoop 结合实时计算案例
作者:Gausst松鼠会 | 2024-06-07 15:43:49
赞
踩
spark 和hadoop 结合实时计算案例
项目一:数据整合
称之为“企业级数据中心”或“数据湖”,这个想法是你有不同的数据源,你想对它们进行数据分析。这类项目包括从所有来源获得数据源(实时或批处理)并且把它们存储在hadoop中。有时,这是成为一个“数据驱动的公司”的第一步;有时,或许你仅仅需要一份漂亮的报告。“企业级数据中心”通常由HDFS文件系统和HIVE或IMPALA中的表组成。未来,HBase和Phoenix在大数据整合方面将大展拳脚,打开一个新的局面,创建出全新的数据美丽新世界。
销售人员喜欢说“读模式”,但事实上,要取得成功,你必须清楚的了解自己的用例将是什么(Hive模式不会看起来与你在企业数据仓库中所做的不一样)。真实的原因是一个数据湖比Teradata和Netezza公司有更强的水平扩展性和低得多的成本。许多人在做前端分析时使用Tabelu和Excel。许多复杂的公司以“数据科学家”用Zeppelin或IPython笔记本作为前端。
项目二:专业分析
许多数据整合项目实际上是从你特殊的需求和某一数据集系统的分析开始的。这些往往是令人难以置信的特定领域,如在银行领域的流动性风险/蒙特卡罗模拟分析。在过去,这种专业的分析依赖于过时的,专有的软件包,无法扩大数据的规模经常遭受一个有限的功能集(大部分是因为软件厂商不可能像专业机构那样了解的那么多)。
在Hadoop和Spark的世界,看看这些系统大致相同的数据整合系统,但往往有更多的HBase,定制非SQL代码,和更少的数据来源(如果不是唯一的)。他们越来越多地以Spark为基础。
项目三:Hadoop作为一种服务
在“专业分析”项目的任何大型组织(讽刺的是,一个或两个“数据整理”项目)他们会不可避免地开始感觉“快乐”(即,疼痛)管理几个不同配置的Hadoop集群,有时从不同的供应商。接下来,他们会说,“也许我们应该整合这些资源池,”而不是大部分时间让大部分节点处于资源闲置状态。它们应该组成云计算,但许多公司经常会因为安全的原因(内部政治和工作保护)不能或不会。这通常意味着很多Docker容器包。
我没有使用它,但最近Bluedata(蓝色数据国际中心)似乎有一个解决方案,这也会吸引小企业缺乏足够的资金来部署Hadoop作为一种服务。
项目四:流分析
很多人会把这个“流”,但流分析是不同的,从设备流。通常,流分析是一个组织在批处理中的实时版本。以反洗钱和欺诈检测:为什么不在交易的基础上,抓住它发生而不是在一个周期结束?同样的库存管理或其他任何。
在某些情况下,这是一种新的类型的交易系统,分析数据位的位,因为你将它并联到一个分析系统中。这些系统证明自己如Spark或Storm与Hbase作为常用的数据存储。请注意,流分析并不能取代所有形式的分析,对某些你从未考虑过的事情而言,你仍然希望分析历史趋势或看过去的数据。
项目五:复杂事件处理
在这里,我们谈论的是亚秒级的实时事件处理。虽然还没有足够快的超低延迟(皮秒或纳秒)的应用,如高端的交易系统,你可以期待毫秒响应时间。例子包括对事物或事件的互联网电信运营商处理的呼叫数据记录的实时评价。有时,你会看到这样的系统使用Spark和HBase——但他们一般落在他们的脸上,必须转换成Storm,这是基于由LMAX交易所开发的干扰模式。
在过去,这样的系统已经基于定制的消息或高性能,从货架上,客户端-服务器消息产品-但今天的数据量太多了。我还没有使用它,但Apex项目看起来很有前途,声称要比Storm快。
项目六:ETL流
有时你想捕捉流数据并把它们存储起来。这些项目通常与1号或2号重合,但增加了各自的范围和特点。(有些人认为他们是4号或5号,但他们实际上是在向磁盘倾倒和分析数据。),这些几乎都是Kafka和Storm项目。Spark也使用,但没有理由,因为你不需要在内存分析。
项目七:更换或增加SAS
SAS是精细,是好的但SAS也很贵,我们不需要为你的数据科学家和分析师买存储你就可以“玩”数据。此外,除SAS可以做或产生漂亮的图形分析外,你还可以做一些不同的事情。这是你的“数据湖”。这里是IPython笔记本(现在)和Zeppelin(以后)。我们用SAS存储结果。
当我每天看到其他不同类型的Hadoop,Spark,或Storm项目,这些都是正常的。如果你使用Hadoop,你可能了解它们。几年前我已经实施了这些项目中的部分案例,使用的是其它技术。
如果你是一个老前辈太害怕“大”或“做”大数据Hadoop,不要担心。事情越变越多,但本质保持不变。你会发现很多相似之处的东西你用来部署和时髦的技术都是围绕Hadooposphere旋转的。
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/685998
推荐阅读
article
【
Apache
Spark
】第 1 章
Apache
Spark
简介:统一分析引擎_
分布式
存储
ap...
本章列出了
Apache
Spark
的起源及其基本理念。它还调查了项目的主要组件及其
分布式
架构。如果您熟悉
Spark
...
赞
踩
article
Apache
Spark
的
基本概念
和在大
数据分析
中的应用_
apache
spark
concept
...
Apache
Spark
是一个基于内存的分布式计算框架,旨在处理大规模数据集。它通过提供高效的数据处理和分析功能,帮助...
赞
踩
article
Java
接入
Apache
Spark
(入门环境搭建、常见问题)_
apache
spark
的javaa...
Apache
官网:https://
spark
.
apache
.org/将下载好的hadoop-3.3.6.tar.gz包,...
赞
踩
article
入门
Apache
Spark
:
基础知识
和
架构解析...
Apache
Spark
是一种快速、通用、可扩展的大数据处理引擎,最初由加州大学伯克利分校的AMPLab开发,于2010...
赞
踩
article
apache
spark
_大数据工程
Apache
Spark
...
apache
spark
大数据意义(Making Sense of Big Data)This is part 2 of...
赞
踩
article
【
Apache
Spark
】
Spark
的
基本概念
和在大
数据分析
中的应用_
apach
spark
可...
雨云服务器一键领取,戳我头像查看历史文章!_
apach
spark
可以干什么
apach
spark
可以干什么 ...
赞
踩
article
Apache
Spark
的基本概念_
apachespark
...
Apache
Spark
是一个快速、可扩展的大数据处理和分析引擎。它提供了一套丰富的API和库,可以处理大规模的数据集,...
赞
踩
article
介绍
Apache
Spark
的
基本概念
和在大
数据分析
中的应用_
apache
spark
是做什么...
介绍
Apache
Spark
的
基本概念
和在大
数据分析
中的应用_
apache
spark
是做什么用的
apache
s...
赞
踩
article
Apache
Spark
发展史_
apache
spark
的历史...
Spark
发展史大数据、人工智能( Artificial Intelligence )像当年的石油、电力一样, 正以前所...
赞
踩
article
Apache
Spark
基础知识
总结及应用示例
_
apachespark
使用
方式‘...
对比与Flink
Spark
基于微批量处理,
Spark
对 SQL 支持更好,
Spark
的社区更加活跃,
Spark
对...
赞
踩
article
【
Apache
Spark
】_
apchespark
...
在
Spark
生态系统中,还有许多组件可以供使用,如
Spark
SQL可以进行SQL查询,
Spark
Streaming可...
赞
踩
article
Spark
GraphX 中的
pregel
函数_
spark
graph
pregel
函数...
非官方个_
spark
graph
pregel
函数
spark
graph
pregel
函数 ...
赞
踩
article
Spark
系列
(
五)
Spark
-
GraphX
的
基本介绍与算子
的
简单使用---
网络红人
排名实例分解_...
Spark
GraphX
:一:图
的
概念:图由顶点集合
(
vertex)及顶点间
的
关系集合
(
边edge) 组成
的
网状数据结构...
赞
踩
article
educoder
-
Spark
GraphX
—
寻找
社交
媒体
中
的
“
影响力
用户”...
头歌
Spark
GraphX
—
寻找
社交
媒体
中
的
“
影响力
用户”答案代码_spark graphx—
寻找
社交
媒体
中
的
“
影响力
...
赞
踩
article
spark
Graph
的
PregelAPI
理解
和使用...
spark
Graph
的
PregelAPI
理解
和使用图本质上是一种递归的数据结构,可以使用Spark
Graph
X ...
赞
踩
article
Hadoop
安装教程 (Mac m1/m2版)_
mac
m1 安装
hadoop
是
yarn
-si...
中内容替换如下,路径需换成自己的路径。(4)打开core-
site
.sh文件【vim core-
site
.
xml
】,将标...
赞
踩
article
【
hadoop
】
hbase
的
安装
部署以及相关操作(图文详解)
_
hbase
安装
_
hadoop
+hbas...
因为HBase依赖于Hadoop
的
分布式文件系统HDFS和资源管理框架YARN,而且HBase
的
各个版本都会对Hadoo...
赞
踩
article
Hadoop
系列 - 初识
Hadoop
及
NameNode
解析
_
hadoop
namenod...
NameNode
作为集群的 Master 节点,需要管理集群中的所有 Slave 节点即 DataNode,负责 Da...
赞
踩
article
Spark
笔记整理
(
四
)
:
Spark
RDD
算子
实战...
[TOC]
Spark
算子
概述
RDD
:弹性分布式数据集,是一种特殊集合、支持多种来源、有容错机制、可以被缓存、支持并行操作...
赞
踩
article
【
S
p
ark
-Core】运行机制、
RDD
算子
实战_
scala
+s
p
arkcore技术分析某
门户网站
日...
一、
S
p
ark
运行机制及原理分析1、WordCount执行的流程分析2、
S
p
ark
提交任务的流程二、
S
p
ark
的
算子
1、...
赞
踩
相关标签
spark
大数据
hadoop
apache
数据分析
java
机器学习
开发语言
scala
big data
Spark
Spark GraphX
Scala