神奇cpp

这个屌丝很懒，什么也没留下！

热门标签

大数据相关介绍_#大数据的四个特性包括csdn

作者：神奇cpp | 2024-07-20 04:11:00

踩

#大数据的四个特性包括csdn

一、大数据四大特征通常指的4V
1.Volume:数据量巨大
体量大是大数据区分于传统数据最显著的特征。一般关系型数据库处理的数据量在TB级，大数据所处理的数据量通常在PB级以上。

2.Variety:数据类型多
大数据所处理的计算机数据类型早已不是单一的文本形式或者结构化数据库中的表，大数据的类型不仅包括网络日志、音频、视频、图片、地理位置信息等结构化数据，还包括半结构化数据甚至是非结构化数据，具有异构性和多样性的特点。

3.Velocity:速度快时效高
高速是大数据区分于传统数据的重要特征。要求大数据的处理速度快，时效性高，需要实时分析而非批量式分析，数据的输入、处理和分析连贯性地处理。

4.Value:数据潜在价值大
大数据本身存在较大的潜在价值，但由于大数据的数据量过大，其价值往往呈现稀疏性的特点。虽然单位数据的价值密度在不断降低，但是数据的整体价值在提高。

二、结构化数据和非结构化数据

结构化数据

1.结构化数据即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。

2.结构化数据类型是一种用户定义的数据类型，它包含了一系列的属性，每一个属性都有一个数据类型。属性是专门用来帮助描述类型实例的特性。常见的结构化数据包括关系型数据库中的表格数据、电子表格中的数据、XML文件中的数据等。

非结构化数据

1.非结构化数据是指没有明确的结构和格式的数据，它不符合传统的表格、行列或关系型数据库的组织形式。非结构化数据的特点是多样性、复杂性和不规则性，常见的非结构化数据包括文本文档、电子邮件、社交媒体帖子、音频和视频文件、图像、日志文件等。

2.非结构化数据也没有明确的数据模型或模式，因此处理和分析非结构化数据更具挑战性。传统的关系型数据库和查询语言无法直接处理非结构化数据，需要使用特定的技术和工具进行处理，如自然语言处理、文本挖掘、图像识别、语音识别等。

结构化数据和非结构化数据的区别

1.数据组织形式：结构化数据按照预定义的模式和格式进行组织，具有明确的数据类型和关系，通常以表格、行列或关系型数据库的形式存储。非结构化数据没有明确的结构和格式，多样性、复杂性和不规则性较高，以文本、图像、音频、视频等形式存在。

2.数据处理方式：结构化数据可以通过传统的查询语言(如SQL)进行处理和分析，可以进行数据的筛选、排序、聚合等操作。非结构化数据的处理需要使用特定的技术和工具，如自然语言处理、图像识别、语音识别等，以提取有用的信息和洞察。

3.数据分析能力：结构化数据由于有明确的结构和格式，可以进行较为精确的数据分析和建模，可以进行统计分析、预测建模等。非结构化数据的分析相对更具挑战性，需要使用更复杂的技术和算法，如文本挖掘、情感分析、图像识别等。

4.数据应用领域：结构化数据常用于企业的业务数据管理、报表生成、决策支持等方面。非结构化数据常用于社交媒体分析、舆情监测、情感分析、图像识别、语音识别等领域。

需要注意的是，现实世界中的数据往往是结构化数据和非结构化数据的混合，因此在数据处理和分析时，需要综合考虑两种类型的数据。

三、Hadoop生态圈

Hadoop 是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。Hadoop 的核心是 HDFS 和 Mapreduce，HDFS 还包括 YARN。

1、HDFS（hadoop分布式文件）是hadoop体系中数据存储管理的基础。他是一个高度容错的系统，能检测和应对硬件故障。系统）

2、mapreduce（分布式计算框架）mapreduce是一种计算模型，用于处理大数据量的计算。其中map对应数据集上的独立元素进行指定的操作，生成键-值对形式中间，reduce则对中间结果中相同的键的所有值进行规约，以得到最终结果。

3、 hive（基于hadoop的数据仓库）由Facebook开源，最初用于解决海量结构化的日志数据统计问题。hive定于了一种类似sql的查询语言（hql）将sql转化为mapreduce任务在hadoop上执行。

4、hbase（分布式列存数据库）

hbase是一个针对结构化数据的可伸缩，高可靠，高性能，分布式和面向列的动态模式数据库。和传统关系型数据库不同，hbase采用了bigtable的数据模型：增强了稀疏排序映射表（key/value）。其中，键由行关键字，列关键字和时间戳构成，hbase提供了对大规模数据的随机，实时读写访问，同时，hbase中保存的数据可以使用mapreduce来处理，它将数据存储和并行计算完美结合在一起。

5、zookeeper（分布式协作服务）解决分布式环境下的数据管理问题：统一命名，状态同步，集群管理，配置同步等。

6、sqoop（数据同步工具）sqoop是sql-to-hadoop的缩写，主要用于传统数据库和hadoop之间传输数据。数据的导入和导出本质上是mapreduce程序，充分利用了MR的并行化和容错性。

7、pig（基于hadoop的数据流系统）定义了一种数据流语言-pig latin，将脚本转换为mapreduce任务在hadoop上执行。通常用于离线分析。

8、mahout（数据挖掘算法库）mahout的主要目标是创建一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。mahout现在已经包含了聚类，分类，推荐引擎（协同过滤）和频繁集挖掘等广泛使用的数据挖掘方法。除了算法是，mahout还包含了数据的输入/输出工具，与其他存储系统（如数据库，mongoDB或Cassandra）集成等数据挖掘支持架构。

9、flume（日志收集工具）cloudera开源的日志收集系统，具有分布式，高可靠，高容错，易于定制和扩展的特点。他将数据从产生，传输，处理并写入目标的路径的过程抽象为数据流，在具体的数据流中，数据源支持在flume中定制数据发送方，从而支持收集各种不同协议数据。

10、资源管理器的简单介绍（YARN和mesos）随着互联网的高速发展，基于数据密集型应用的计算框架不断出现，从支持离线处理的mapreduce，到支持在线处理的storm，从迭代式计算框架到流式处理框架s4，...，在大部分互联网公司中，这几种框架可能都会采用，比如对于搜索引擎公司，可能的技术方法如下：网页建索引采用mapreduce框架，自然语言处理/数据挖掘采用spark，对性能要求到的数据挖掘算法用mpi等。公司一般将所有的这些框架部署到一个公共的集群中，让它们共享集群的资源，并对资源进行统一使用，这样便诞生了资源统一管理与调度平台，典型的代表是mesos和yarn。

四、Hadoop HDFS 架构

HDFS（Hadoop Distributed File System）是Hadoop项目的核心子项目，是分布式计算中数据存储管理的基础，是基于流数据模式访问和处理超大文件的需求而开发的，可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储，为超大数据集（Large Data Set）的应用处理带来了很多便利。

HDFS的优势:
1.高容错性2.高数据吞吐量3.支持超大文件4.流式数据访问
HDFS的劣势:
1.不适合低延时数据访问
比如毫秒级的来存储数据，这是不行的，它做不到。它适合高吞吐率的场景，就是在某一时间内写入大量的数据。但是它在低延时的情况下是不行的，比如毫秒级以内读取数据，这样它是很难做到的。

2.不适合小文件存储
存储大量小文件(这里的小文件是指小于HDFS系统的Block大小的文件（默认64M）)的话，它会占用 NameNode大量的内存来存储文件、目录和块信息。这样是不可取的，因为NameNode的内存总是有限的。

小文件存储的寻道时间会超过读取时间，它违反了HDFS的设计目标。

3.不适合并发写入、文件随机修改
一个文件只能有一个写，不允许多个线程同时写；仅支持数据 append（追加），不支持文件的随机修改。

架构图

1.Client（客户端）
（1）文件切分，文件上传 HDFS 的时候，Client 将文件切分成一个一个的Block，然后进行存储

（2）与 NameNode 交互，获取文件的位置信息

（3）与 DataNode 交互，读取或者写入数据

（4）Client 提供一些命令来管理 HDFS，比如启动或者关闭HDFS

2.NameNode（master，它是一个主管、管理者）
（1）管理 HDFS 的名称空间

（2）管理数据块（Block）映射信息

（3）配置副本策略

（4）处理客户端读写请求

3.DataNode（slave，NameNode 下达命令，DataNode 执行实际的操作）
（1）存储实际的数据块

（2）执行数据块的读/写操作

4.Secondary NameNode（辅助者，并非 NameNode 的热备）
（1）辅助 NameNode，分担其工作量

（2）定期合并 fsimage和fsedits，并推送给NameNode

（3）在紧急情况下，可辅助恢复 NameNode

五、HDFS读写流程

1.客户端向 NameNode 发送读取请求，请求包括要读取的文件名和文件块的起始位置。

2.NameNode 根据请求的文件名，查询文件所对应的块列表，并返回给客户端块列表以及每个块所在的 DataNode 列表。

3.客户端根据返回的块列表和 DataNode 列表，选择一个 DataNode 开始读取数据。如果选择的 DataNode 不可用，则会选择另外一个 DataNode。

3.客户端向选择的 DataNode 发送读取请求，请求包括要读取的块的起始位置和长度。

4.DataNode 接收到读取请求后，从本地磁盘读取数据块，并将数据块返回给客户端。

5.如果 DataNode 上的数据块副本不足，则会从其他 DataNode 上获取数据块副本。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/神奇cpp/article/detail/855064