从前慢现在也慢

这个屌丝很懒，什么也没留下！

热门标签

《大数据技术从零开始》自学知识库(2022年整理)_大数据知识库

作者：从前慢现在也慢 | 2024-05-19 20:39:34

踩

大数据知识库

大数据相关的岗位近年来增长不少，有不少朋友都在转这个方向，下面是最近整理的大数据技术知识库，供大家参考：

计算机组成原理

虽然很多人只要会写 SQL 就能找到工作了，但毕竟上升的天花板很有限，技术往深了研究，逃不开计算机硬件本身的原理，建议大家尽可能熟悉一些计算机硬件系统的组织结构和工作原理。

起码要能分得清啥是「内存」，啥是「硬盘」…

「公开课」

《计算机组成原理》课程，哈尔滨工业大学，刘宏伟，国家级精品课程: https://www.bilibili.com/video/BV1t4411e7LH/

「付费课」

《深入浅出计算机组成原理》，徐文浩 bothub 创始人: http://gk.link/a/11F9P

「推荐书」

《计算机组成原理》: https://u.jd.com/UI14dUf
《深入理解计算机系统》: https://u.jd.com/UMgEXSa

操作系统

操作系统（Operating System，简称OS）是管理和控制计算机硬件与软件资源，直接运行在“裸机”上的最基本的系统软件，任何其他软件都必须在操作系统的支持下才能运行。操作系统是用户和计算机的接口，同时也是计算机硬件和其他软件的接口。操作系统的功能包括管理计算机系统的硬件、软件及数据资源，控制程序运行，提供人机交互界面，为其它应用软件提供支持等。

Hadoop、Kafka、Elasticsearch 等大数据相关组件，在运行前都需要调整操作系统的一些参数才能发挥更大的性能，涉及到性能相关的优化，避不开操作系统的知识。

「公开课」

《操作系统》课程，哈尔滨工业大学，李治军: https://www.bilibili.com/video/BV1d4411v7u7/

「付费课」

《趣谈 Linux 操作系统》，刘超前网易杭州研究院云计算技术部首席架构师: http://gk.link/a/11F9U

「推荐书」

《现代操作系统》: https://u.jd.com/UIg8tir

数据结构与算法

计算机是现代社会中用于解决问题的重要工具，支撑这个工具高效运转的就是其后的各种系统程序、应用程序。图灵奖获得者N.Wirth写了一本经典著作“程序=算法+数据结构”。数据结构，是抽象的表示数据的方式；算法，则是计算的一系列有效、通用的步骤。算法与数据结构是程序设计中相辅相成的两个方面，是计算机学科的重要基石。

不多说，这个是程序员的基础课！

「公开课」

【尚硅谷】数据结构与算法（Java数据结构与算法）: https://www.bilibili.com/video/BV1E4411H73v

「付费课」

《数据结构与算法之美》，王争前 Google 工程师: http://gk.link/a/11Fa7

「推荐书」

《数据结构与算法分析：Java语言描述》: https://u.jd.com/UIgWiBF

计算机网络

大数据应用，背后都是由运行在多台服务器上的多个服务组成的，服务与服务之间需要通过网络来交流，熟悉计算机网络能帮你快速解决大数据应用里许多莫名其妙的问题:)

「公开课」

中科大郑烇、杨坚全套《计算机网络（自顶向下方法第7版》: https://www.bilibili.com/video/BV1JV411t7ow
《计算机网络》，哈尔滨工业大学: https://www.icourse163.org/course/hit-154005

「付费课」

《趣谈网络协议》，刘超前网易研究院云计算技术部首席架构师: http://gk.link/a/11Fa9

「推荐书」

《计算机网络：自顶向下方法》: https://u.jd.com/UKgZ6R0
《计算机网络》: https://u.jd.com/UIgJNge

Linux系统

几乎所有大数据组件都运行在 Linux 上，得懂啊！

「公开课」

【尚硅谷】《3天搞定Linux，1天搞定Shell，清华学神带你通关（2022版）》: https://www.bilibili.com/video/BV1WY4y1H7d3

「付费课」

《Linux 实战技能 100 讲》，尹会生前游戏公司技术总监，前新浪网技术经理: http://gk.link/a/11Fac
《Linux 性能优化实战》，倪朋飞资深 Linux 专家，Kubernetes 项目维护者: http://gk.link/a/11Fad

「推荐书」

《鸟哥的Linux私房菜基础学习篇》: https://u.jd.com/UwgWOO2
《Linux命令行与shell脚本编程大全》: https://u.jd.com/UtgZTab

Java

Hadoop、Spark、Flink，这些大数据组件的源代码都用到了 Java，不懂点 Java 可能连 Hadoop 的报错都看不懂。普通的 SQL 开发者与专家之间的区别，有一点就是：专家遇到了问题，懂得看源码来解决；而普通开发者搜索搜不出来就只能干等着了。

「公开课」

【尚硅谷】《Java入门视频教程》: https://www.bilibili.com/video/BV1Kb411W75N
【尚硅谷】《宋红康JVM全套教程》: https://www.bilibili.com/video/BV1PJ411n7xZ/

「付费课」

《零基础学 Java》，臧萌 PayPal 数据处理组技术负责人: http://gk.link/a/11Fco
《Java 性能调优实战》，刘超前金山软件技术经理: http://gk.link/a/11Fcp

「推荐书」

《Java编程思想》: https://u.jd.com/UM3tXxr
《Java核心技术》: https://u.jd.com/UKDR0ej
《深入理解Java虚拟机：JVM高级特性与最佳实践》: https://u.jd.com/UdDRSAZ

Scala

Spark、Flink、Kafka 的核心代码是通过 Scala 实现的，如果要掌握这些技术，免不了！

「公开课」

【尚硅谷】《大数据技术之Scala入门到精通教程》: https://www.bilibili.com/video/BV1Xh411S7bP

「推荐书」

《Scala编程》: https://u.jd.com/UwDRTPo
《Scala学习手册》: https://u.jd.com/ULDAqvN

Python

Python，著名「胶水语言」，易上手、灵活、有各种各样的库，做数据分析会用到。

「公开课」

【尚硅谷】《Python零基础入门教程全套完整版》: https://www.bilibili.com/video/BV1hW41197sB

「付费课」

《零基础学 Python》，尹会生前游戏公司技术总监，前新浪网技术经理: http://gk.link/a/11Fct

「推荐书」

《Python学习手册》: https://u.jd.com/UID7tS1
《Python基础教程》: https://u.jd.com/UK38KhP

MySQL

写 SQL 比直接写 Java 或者 Scala 代码要门槛低一些，Hive、Spark、Flink 都提供了 SQL 给大家使用。作「数据的搬运工」，写 SQL 是大数据开发人员最容易上任的一项工作了。

通过 MySQL 来了解下传统数据库的原理，以及 SQL 的基本用法。

「公开课」

【尚硅谷】《MySQL数据库教程天花板，mysql安装到mysql高级，强！硬！》: https://www.bilibili.com/video/BV1iq4y1u7vj

「推荐书」

《MySQL必知必会》: https://u.jd.com/UI3dyFN
《深入浅出MySQL 数据库开发优化与管理维护》: https://u.jd.com/UL3t11U
《高性能MySQL》: https://u.jd.com/Ud32q4G

分布式系统

熟悉传统数据库的同学，如果不了解分布式数据库的话，往往在使用大数据技术的过程中会感到很差异：为啥跑个 SparkSQL 这么慢，同样的数据量，在单机 MySQL 里几百毫秒就跑完了， Hadoop 用了10台服务器还要这么久？同样的 SparkSQL，昨天还能跑成功呢，今天咋就失败了呢？

分布式系统，了解一下~

「公开课」

《【麻省理工学院—中文字幕】也只有MIT大佬才能把分布式系统讲的明明白白，油管超人气Java公开课》: https://www.bilibili.com/video/BV1CU4y1P7PE

「付费课」

《深入浅出分布式技术原理》，陈现麟伴鱼技术中台负责人，前小米工程师: http://gk.link/a/11Fcw
《分布式系统案例课》，杨波前携程 / 拍拍贷技术总监，微服务技术专家: http://gk.link/a/11Fcx

「推荐书」

《分布式系统：概念与设计》: https://u.jd.com/UM3yOfx

Netty

Netty是一个高性能、异步事件驱动的NIO框架，它提供了对TCP、UDP和文件传输的支持，作为一个异步NIO框架，Netty的所有IO操作都是异步非阻塞的，通过Future-Listener机制，用户可以方便的主动获取或者通过通知机制获得IO操作结果。

作为当前最流行的NIO框架，Netty在互联网领域、大数据分布式计算领域、游戏行业、通信行业等获得了广泛的应用，一些业界著名的开源组件也基于Netty的NIO框架构建。

「公开课」

【尚硅谷】《Netty视频教程》: https://www.bilibili.com/video/BV1DJ411m7NR

「付费课」

《Netty 源码剖析与实战》，傅健 Netty 源码贡献者、Cisco 高级软件工程师: http://gk.link/a/11Fcy

「推荐书」

《Netty权威指南》: https://u.jd.com/Uw3tVMA
《Netty实战》: https://u.jd.com/UK3DLDW

Hadoop

Hadoop是大数据领域最成熟的技术了，虽然新技术层出不穷，但 Hadoop 就是死不了，每个公司搞大数据都逃不掉要用 Hadoop。

「公开课」

《尚硅谷大数据Hadoop教程》: https://www.bilibili.com/video/BV1Qp4y1n7EN
【尚硅谷】《Hadoop3.x高可用集群，HDFS、Yarn集群》: https://www.bilibili.com/video/BV1EP4y1j7V1

「付费课」

《从 0 开始学大数据》，李智慧同程艺龙交通首席架构师，前 Intel 大数据架构师，《大型网站技术架构》作者: http://gk.link/a/11FlI
《大数据经典论文解读》，徐文浩 bothub 创始人: http://gk.link/a/11FlK

「推荐书」

《Hadoop权威指南：大数据的存储与分析》: https://u.jd.com/UK33txl

HDFS

HDFS 是 Hadoop 中的分布式文件系统，基础，必懂！

「推荐书」

《Hadoop技术内幕:深入解析HadoopCommon和HDFS架构设计》: https://u.jd.com/Ut38weS

MapReduce

传统的程序运行过程中，是把数据拿过来计算，而数据量太大的时候，把那么多的数据都挨个再「拿」过来，就不划算了；大数据讲究的是把计算移动到数据那里去「算」，这就是 MapReduce 要做的事儿。

「推荐书」

《MapReduce 2.0源码分析与编程实战》: https://u.jd.com/UM3yelS

Yarn

Yarn 是 Hadoop 中管理集群中所有服务器资源的资源调度框架，计算数据要用到服务器的 CPU 和内存，要多少合适呢？程序跑得快不快，跟 Yarn 给你分配的资源有很大关系。

「推荐书」

《Hadoop技术内幕深入解析YARN架构设计与实现原理》: https://u.jd.com/UL3Ydc4

Zookeeper

ZooKeeper 是一个开源的分布式协调服务，协调啥呢？比如，HDFS 安排了两个 NameNode 组成 HA，但同一时刻，由哪个 NameNode 来当大哥呢？让这俩 NameNode 都注册到 Zookeeper 里，交给 Zookeeper 来决定！

「公开课」

【尚硅谷】《大数据技术之Zookeeper 3.5.7版本教程》: https://www.bilibili.com/video/BV1to4y1C7gw

「付费课」

《ZooKeeper 实战与源码剖析》，么敬国新东方集团首席架构师: http://gk.link/a/11FcB

「推荐书」

《ZooKeeper：分布式过程协同技术详解》: https://u.jd.com/Ut32vnj

Hive

不想写 Java 代码处理大量数据，只想写几行 SQL 算算，那就用 Hive 吧~

「公开课」

【尚硅谷】《大数据技术之Hive源码编译详解》: https://www.bilibili.com/video/BV1x14y177Ab
【尚硅谷】《大数据Hive高级进阶教程》: https://www.bilibili.com/video/BV1Cb4y1r7p2

「推荐书」

《Hive编程指南》: https://u.jd.com/UC3rlrv
《Hive实战》: https://u.jd.com/UL3yyRD

Spark

Hive 原先是基于 MapReduce 实现的，慢！换 Spark 看看~

「公开课」

【尚硅谷】《大数据Spark教程从入门到精通》: https://www.bilibili.com/video/BV11A411L7CK
【尚硅谷】《大数据Spark3.0调优，Spark3.x性能优化》: https://www.bilibili.com/video/BV1QY411x7xL

「付费课」

《零基础入门 Spark》，吴磊 FreeWheel 机器学习研发经理: http://gk.link/a/11FcC
《Spark 性能调优实战》，吴磊 FreeWheel 机器学习团队负责人: http://gk.link/a/11FcD

「推荐书」

《Spark权威指南》: https://u.jd.com/UK3rHSZ
《Spark大数据商业实战三部曲：内核解密商业案例性能调优》: https://u.jd.com/Uw3nw6b

Kafka

Kafka 是 LinkedIn 开发并开源的一套分布式的高性能消息引擎服务，后来被越来越多的公司应用在自己的系统中，可以说，Kafka 是大数据时代数据管道技术的首选。在设计的时候，它就实现了高可靠、高吞吐、高可用和可伸缩，得益于这些特性，加上活跃的社区，Kafka 成为了一个完备的分布式消息引擎解决方案。

历经多年发展，Kafka 的功能和特性也在不断迭代，如今的 Kafka 集消息系统、存储系统和流式处理平台于一身，并作为连接着各种业务前台和数据后台的消息中间件，在线上环境承担了非常重要的作用。

「公开课」

【尚硅谷】《2022版Kafka3.x教程（从入门到调优，深入全面）》: https://www.bilibili.com/video/BV1vr4y1677k/

「付费课」

《Kafka 核心技术与实战》，胡夕 Apache Kafka Committer，老虎证券技术总监: http://gk.link/a/11FcG
《Kafka 核心源码解读》，胡夕 Apache Kafka Committer，老虎证券技术总监: http://gk.link/a/11FcH

「推荐书」

《Kafka权威指南》: https://u.jd.com/UL3DEDh
《Kafka技术内幕图文详解Kafka源码设计与实现》: https://u.jd.com/UC3ytxR
《深入理解Kafka：核心设计与实践原理》: https://u.jd.com/Ut3vuX2

Flink

目前大部分公司的大数据处理工作，使用的还是离线处理技术，但未来，流式计算必定会成为分布式计算的重要方向之一。如果你想要掌握一门具有前瞻性的流式计算处理技术，Flink 必然是你的首选。目前为止，开源界唯一真正同时做到低时延，数据一致性保障以及高吞吐的大数据处理技术，也只有 Flink。它可以在毫秒级的延迟情况下，实现每秒钟处理上亿次的消息或者事件。

「公开课」

【尚硅谷】《2022版Flink1.13实战教程（涵盖所有flink-Java知识点）》: https://www.bilibili.com/video/BV133411s7Sa

「付费课」

《Flink 核心技术与实战》，张利兵第四范式数据中台架构师，Apache Flink 贡献者: http://gk.link/a/11FcI

「推荐书」

《深入理解Flink核心设计与实践原理》: https://u.jd.com/UC3Y9Wh

数据仓库

掌握了那么多开发技术，不就是老板要你建数仓嘛~

「公开课」

【尚硅谷】《大数据项目【电商数仓5.0】》: https://www.bilibili.com/video/BV1AT411j7hu
【尚硅谷】《Flink实时数仓3.0》: https://www.bilibili.com/video/BV1TG411a7nL

「推荐书」

《数据仓库》: https://u.jd.com/UM3YZF8
《Hadoop构建数据仓库实践》: https://u.jd.com/Ud3yCRC

数据治理

建数仓只是第一步，数据得管理好才行~

「推荐书」

《数据管理&治理3部曲：一本书讲透数据治理+DAMA数据管理知识体系指南+数据治理全三册》: https://u.jd.com/UC3Sfnc

数据中台

2016年至2020年间，数据中台的概念很火，现在是落地的时候了，每个企业都不好忽悠，得为企业产生真正的利益才行~

「公开课」

《武凯说》: https://space.bilibili.com/39431579/channel/seriesdetail?sid=2158634

「付费课」

《数据中台实战课》，郭忆网易大数据专家: http://gk.link/a/11FcK

「推荐书」

《数据中台：让数据用起来》: https://u.jd.com/UL33szb

是不是觉得这辈子是学不完了？

原文链接：https://mp.weixin.qq.com/s/H22zWBE_PyQDqFZvcnSmtA

本文内容由网友自发贡献，转载请注明出处：https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/594567

《大数据技术从零开始》自学知识库(2022年整理)_大数据知识库

文章目录

计算机组成原理

操作系统

数据结构与算法

计算机网络

Linux系统

Java

Scala

Python

MySQL

分布式系统

Netty

Hadoop

HDFS

MapReduce

Yarn

Zookeeper

Hive

Spark

Kafka

Flink

数据仓库

数据治理

数据中台