当前位置:   article > 正文

慕课笔记-数据科学导论-第三章数据采集与预处理-大数据来源/采集方法/预处理流程/数据清洗_数据采集与预处理过程

数据采集与预处理过程

数据采集与预处理

(1)大数据的来源

信息来源

  • 1.信息管理系统

    • 信息管理系统主要通过用户输入和系统二次加工的方式产生数据,其产生的数据大多数为结构化数据,通常存储在数据库中。
      
      • 1
  • 2.网络信息系统

    • 在本质上,网络信息系统是信息管理系统的延伸,是专属于某个领域的应用,具备某个特定的目的。
  • 3.物联网系统

    • 物联网是新一代信息技术,其核心和基础仍然是互联网,是在互联网基础上延伸和扩展的网络,
  • 4.科学试验系统

数据类型来源

  • 1.传统商业数据

    • 来自企业ERP系统、各种POS终端及网上支付系统等业务系统的数据
    • 传统商业是主要的数据来源
  • 2.互联网数据

    • 具有大量化,多样化,快速化等特点
    • 指网络空间交互过程中产生的大量数据
    • 互联网是大数据信息的主要来源
  • 3.物联网数据

    物联网的定义:通过射频识别(Radio Frequency IDentification,RFID)装置、传感器、红外感应器、全球定位系统、激光扫描器等信息传感设备,按约定的协议,把任何物品与互联网相连接,以进行信息交换和通信,从而实现智慧化识别、定位、跟踪、监控和管理的一种网络体系。物联网数据是除了人和服务器之外,在射频识别、物品、设备、传感器等节点产生的大量数据,包括射频识别装置、音频采集器、视频采集器、传感器、全球定位设备、办公设备、家用设备和生产设备等产生的数据。

    • 主要特点

      • 数据量更大
      • 传输速率更高
      • 更加多样化
      • 对数据真实性要求更高

(2)数据的采集方法

1.系统日志的采集方法

  • 很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Facebook公司的Scribe、Hadoop平台的Chukwa、Cloudera公司的Flume等。这些工具均采用分布式架构,能满足每秒数百兆的日志数据采集和传输需求。

  • Scribe
    在这里插入图片描述

    • Facebook开源日志收集系统,为日志的“分布式收集,统一处理”提供了一个可扩展的、高容错的方案。

    • 架构

    • Scribe Agent

      • Scribe Agent实际上是一个Thrift Client,Scribe内部定义了一个Thrift接口(唯一方法),用户使用该接口向Scribe发送数据。
      • Scribe Agent发送的每条数据记录包含一个种类(Category)和一个信息(Massage)。
    • Scribe

      • 接收Thrift Agent发送的数据,从各种数据源上收集数据,放到一个共享队列,推送到后端的中央存储系统
      • 当中央存储系统出现故障时,Scribe暂时将数据写入本地文件等系统恢复后再次上传
      • 根据Category将不同主题的数据存储到不同目录中,便于分别进行处理
    • 中央存储系统

      • Scribe中的store,当前Scribe支持非常多的store类型,包括文件、Buffer或数据库。
  • Chukwa

    • 一种对大

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/233186
推荐阅读
相关标签
  

闽ICP备14008679号