赞
踩
spark,是大数据学习必学内容,我们可以来看这个招聘信息,除了需要会Linux环境,还要了解一下编程语言,会技术框架,而spark就是其中之一,而且是重中之重!今天我就分享一套有关于spark全新的教程,10带你系统学习spark分布式内存计算框架!课程使用图形的方式详细演示代码的流程和细节、整合企业级实战案例,全面讲解并突出重点,让学习也变成一种快乐。
1,知识体系完备,阶段学习者都能学有所获。
2,综合各种方式演示代码、分析逻辑,生动形象,化繁为简,讲解通俗易懂。
3,结合工作实践及分析应用,培养解决实际问题的能力。
4,使用综合案例来加强重点知识,用切实的应用场景提升编程能力,充分巩固各个知识点的应用。
5,整个课程的讲解思路是先提出问题,然后分析问题,并编程解决解题。
2020大数据十天系统学习Spark分布式内存计算框架
完整视频:http://yun.itheima.com/course/808.html?2010stt
配套资料:https://pan.baidu.com/s/1-FddfHr5hUM7jKYhDfCI-Q 提取码:mw0j
第一章、Spark 基础环境
1.课程安排说明
2.Spark 框架概述
3.快速入门
4.Standalone集群及HA
5.Spark 应用开发入门
6.Spark 应用提交
7.Spark on YARN
8.应用部署模式DeployMode
第二章、SparkCore 模块
1.RDD 概念及特性
2.RDD 创建
3.RDD 函数及使用
4.RDD 持久化
5.案例:SogouQ日志分析
6.RDD Checkpoint
7.外部数据源(HBase和MySQL)
8.广播变量和累加器
9.Spark 内核调度
10.Spark 并行度
第三章、SparkSQL 模块
1.快速入门:词频统计
2.SparkSQL 概述
3.DataFrame
4.RDD与DataFrame转换
5.数据分析SQL和DSL
6.案例:电影评分数据分析
7.DataSet
8.外部数据源Exeternal DataSource
9.集成Hive
10.自定义函数UDF
11.分布式SQL引擎(spakr-sql和Spark ThriftServer)
12.Catalyst 优化器
第四章、离线综合实战
1.综合实战概述(需求、调研、业务)
2.环境搭建(大数据环境和应用开发环境)
3.项目初始化(工具类和属性文件)
4.广告数据ETL
5.Spark 分布式缓存
6.业务报表分析
7.应用执行部署
8.Oozie和Hue集成调度Spark 应用
第五章、SparkStreaming 模块
1.Streaming流式应用概述
2.Streaming 计算模式
3.SparkStreaming计算思路
4.入门案例
5.SparkStreaming工作原理
6.DStream及函数
7.集成Kafka
8.案例:百度搜索风云榜(实时ELT、窗口Window和状态State)
9.SparkStreaming Checkpoint
10.消费Kafka偏移量管理
第六章、StructuredStreaming模块
1.StructuredStreaming 概述(核心设计和编程模型)
2.入门案例:WordCount
3.输入源InputSources
4.Streaming Query 设置
5.输出终端OutputSink
6.集成Kafka(Source和Sink)
7.案例:物联网设备数据分析
8.事件时间窗口分析
9.Streaming Deduplication数据去重
10.Continues Processing连续流处理
第七章、实时综合实战
1.综合实战概述(需求、环境搭建和项目初始化)
2.模拟交易订单数据
3.数据实时ETL存储Kafka
4.实时应用停止
5.实时增量存储(存储HBase和Elasticsearch)
6.实时订单报表(Kafka-StructuredStreaming-Redis)
7.实时应用性能调优(数据本地性、反压机制、动态资源和日志管理)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。