慕课笔记-数据科学导论-第三章数据采集与预处理-大数据来源/采集方法/预处理流程/数据清洗_数据采集与预处理过程

作者：Monodyee | 2024-03-14 10:06:46

踩

数据采集与预处理过程

数据采集与预处理

1.信息管理系统

信息管理系统主要通过用户输入和系统二次加工的方式产生数据，其产生的数据大多数为结构化数据，通常存储在数据库中。
1

很多互联网企业都有自己的海量数据采集工具，多用于系统日志采集，如Facebook公司的Scribe、Hadoop平台的Chukwa、Cloudera公司的Flume等。这些工具均采用分布式架构，能满足每秒数百兆的日志数据采集和传输需求。
Scribe
- Facebook开源日志收集系统，为日志的“分布式收集，统一处理”提供了一个可扩展的、高容错的方案。
- 架构
- Scribe Agent
  - Scribe Agent实际上是一个Thrift Client，Scribe内部定义了一个Thrift接口(唯一方法),用户使用该接口向Scribe发送数据。
  - Scribe Agent发送的每条数据记录包含一个种类（Category）和一个信息（Massage）。
- Scribe
  - 接收Thrift Agent发送的数据，从各种数据源上收集数据，放到一个共享队列，推送到后端的中央存储系统
  - 当中央存储系统出现故障时，Scribe暂时将数据写入本地文件等系统恢复后再次上传
  - 根据Category将不同主题的数据存储到不同目录中，便于分别进行处理
- 中央存储系统
  - Scribe中的store，当前Scribe支持非常多的store类型，包括文件、Buffer或数据库。
Chukwa
- 一种对大

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Monodyee/article/detail/233186