AllinToyou

这个屌丝很懒，什么也没留下！

热门标签

大数据技术之Hadoop-大数据分布式_hadoop在大数据

作者：AllinToyou | 2024-04-28 07:21:36

踩

hadoop在大数据

一，数据导论

1、数据是什么

人类的行为及产生的事件的一种记录称之为数据

2、数据的价值

对数据的内容进行深入分析，可以更好的帮助了解事和物在现实世界的运行规律
比如，购物的订单记录（数据）可以帮助平台更好的了解消费者，从而促进交易。

二，大数据诞生

1、大数据的诞生是跟随着互联网的发展的

当全球互联网逐步建成（2000年左右），各大企业或政府单位拥有了海量的数据亟待处理。
基于这个前提逐步诞生了以分布式的形式（即多台服务器集群）完成海量数据处理的处理方式，并逐步发展成现代大数据体系。
2. Apache Hadoop对大数据体系的意义

三，大数据概述

1、什么是大数据

狭义上：大数据是一类技术栈，是一种用来处理海量数据的软件技术体系。

广义上：大数据是数字化时代、信息化时代的基础（技术）支撑，以数据为生活赋能。

2、大数据的特征

大数据有5个主要特征，称之为：5V特性

Volume 体积-数据体量大

采集数据量大
存储数据量大
计算数据量大
TB、PB级别起步

Variety 种类-种类、来源多样化

种类：结构化、半结构化、非结构化
来源：日志文本、图片、音频、视频

Value 价值-低价值密度

深度复杂的挖掘分析需要机器学习参与
信息海量但是价值密度低

Velocity 速度-速度快

数据增长速度快
获取数据速度快
数据处理速度快

Veracity 质量-数据的质量

数据的准确性
数据的可信赖度体积

3、大数据的核心工作

大数据的核心工作其实就是：从海量的高增长、多类别、低信息密度的数据中挖掘出高质量的结果

数据存储可以妥善存储海量待处理数据

数据计算可以从海量数据中计算出背后的价值

数据传输协助在各个环节中完成海量数据的传输

四，大数据软件生态

1、数据存储

2、数据计算

3、数据传输

五，Apache Hadoop概述

1、什么是Hadoop

Hadoop是Apache软件基金会下的顶级开源项目，用以提供：

分布式数据存储
分布式数据计算
分布式资源调度

为一体的整体解决方案。

Apache Hadoop是典型的分布式软件框架，可以部署在1台乃至成千上万台服务器节点上协同工作。

个人或企业可以借助Hadoop构建大规模服务器集群，完成海量数据的存储和计算。

2、Hadoop的功能

通常意义上，Hadoop是一个整体，其内部还会细分为三个功能组件，分别是：

HDFS组件

HDFS是Hadoop内的分布式存储组件
可以构建分布式文件系统用于数据存储

MapReduce组件

MapReduce是Hadoop内分布式计算组件。提供编程接口供用户开发分布式计算程序

YARN组件

YARN是Hadoop内分布式资源调度组件。
可供用户整体调度大规模集群的资源使用。

3、Hadoop发行版本

Apache开源社区版本

http://hadoop.apache.org/

商业发行版本

CDH（Cloudera's Distribution, including Apache Hadoop） Cloudera公司出品，目前使用最多的商业版
HDP（Hortonworks Data Platform），Hortonworks公司出品，目前被Cloudera收购
星环，国产商业版，星环公司出品，在国内政企使用较多

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/AllinToyou/article/detail/501024