赞
踩
处于大数据生命周期的第一个环节
数据预处理技术
分布式文件系统(DFS)
:是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而通过计算机网络与节点相连。如HDFS等Flume的核心是Agent
Flume Agent由Source、Channel和Sink组成
Flume的运行机制
Flume的核心是Agent。Agent对外有两个进行交互的地方,一个是接受数据的输入Source,一个是数据的输出Sink。
Source接收到数据之后,将数据发送给Channel,Chanel作为一个数据缓冲区会临时存放这些数据,随后Sink会将Channel中的数据发送到指定的地方,例如HDFS等。
Flume可以支持多级Flume的Agent。例如Sink可以将数据写到下一个Agent的Source中,这样的话就可以连成串。
Flume还支持扇入(fan-in)、扇出(fan-out)。所谓扇入就是Source可以接受多个输入,所谓扇出就是Sink可以将数据输出多个目的地。
Apache Kafka是一种分布式发布-订阅消息系统。
Kafka被设计为能够高效地处理大量实时数据,具有快速、可扩展、分布式、分区和多副本等特点。
Kafka使用由Scala语言编写。
Kafka架构不仅具有高可扩展性、容错性和高并发性、还具有高吞吐量。
Kafka包括Consumers、Broker、Producers三层架构。
Apache Sqoop 是一种用于 Apache Hadoop 与关系型数据库之间结构化、非结构化数据转换的工具,它是Java语言编写的数据迁移开源工具
Sqoop可以通过Sqoop这个工具实现传统的关系型数据库(RDBMS )与Hadoop云环境平台的数据迁移
ETL处理流程
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。