hadoop解决大数据问题的步骤_面临处理大规模数据和实时数据分析的难题,使用hadoop如何解决?请给出详细步骤

作者：菜鸟追梦旅行 | 2024-04-08 23:51:56

踩

面临处理大规模数据和实时数据分析的难题,使用hadoop如何解决?请给出详细步骤

基本步骤（提取数据，存储数据，处理数据）

提取数据

从各种来源提取数据，例如：
RDBM（Relational Database Management Systems）关系数据库管理系统，如 Oracle，MySQL 等。
ERPs（Enterprise Resource Planning）企业资源规划（即 ERP）系统，如 SAP。
CRM（Customer Relationships Management）客户关系管理系统，如 Siebel，Salesforce 等
社交媒体或是手机app的日志文件。
平面文件，文档和图像。
　　并将其存储在基于“Hadoop 分布式文件系统”（简称 HDFS）的数据中心上。可以通过批处理作业（例如每 15 分钟运行一次，每晚一次，等），近实时（即 100 毫秒至 2 分钟）流式传输和实时流式传输（即 100 毫秒以下）去采集数据。
　　Hadoop 中使用的一个常用术语是“Schema-On-Read”。这意味着未处理（也称为原始）的数据可以被加载到 HDFS，其具有基于处理应用的需求在处理之时应用的结构。这与“Schema-On-Write”不同，后者用于需要在加载数据之前在 RDBM 中定义模式。

存储数据

数据可以存储在 HDFS 或 NoSQL 数据库，如 HBase。HDFS 针对顺序访问和“一次写入和多次读取”的使用模式进行了优化。HDFS 具有很高的读写速率，因为它可以将 I / O 并行到多个驱动器。HBase 在 HDFS 之上，并以柱状方式将数据存储为键/值对。列作为列家族在一起。HBase 适合随机读/写访问。在 Hadoop 中存储数据之前，你需要考虑以下几点：
数据存储格式：有许多可以应用的文件格式（例如 CSV，JSON，序列，AVRO，Parquet 等）和数据压缩算法（例如 snappy，LZO，gzip，bzip2 等）。每个都有特殊的优势。像 LZO 和 bzip2 的压缩算法是可拆分的。
数据建模：尽管 Hadoop 的无模式性质，模式设计依然是一个重要的考虑方面。这包括存储在 HBase，Hive 和 Impala 中的对象的目录结构和模式。Hadoop 通常用作整个组织的数据中心，并且数据旨在共享。因此，结构化和有组织的数据存储很重要。
元数据管理：与存储数据相关的元数据。
多用户：更智能的数据中心托管多个用户、组和应用程序。这往往导致与统治、标准化和管理相关的挑战。

处理数据

Hadoop 的处理框架使用 HDFS。它使用“Shared Nothing”架构，在分布式系统中，每个节点完全独立于系统中的其他节点。没有共享资源，如 CPU，内存以及会成为瓶颈的磁盘存储。Hadoop 的处理框架（如 Spark，Pig，Hive，Impala 等）处理数据的不同子集，并且不需要管理对共享数据的访问。 “Shared Nothing”架构是非常可扩展的，因为更多的节点可以被添加而没有更进一步的争用和容错，因为每个节点是独立的，并且没有单点故障，系统可以从单个节点的故障快速恢复。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/388995