当前位置:   article > 正文

数据采集的三大要点、数据源、方法和网络数据采集

数据采集的三大要点

数据采集的三大要点

      全面性:数据量足够具有分析价值、数据面足够支撑分析需求。

       多维性:数据能够满足分析需求。

        高效性:分布式的进行,合理分配,团队内部成员协同的高效性以及数据分析需求和目标实现的高效性。

数据采集的数据源

主要数据源:传感器数据、互联网数据、日志文件、企业业务系统数据。

我们主要是采集互联网数据,通常借助网络爬虫来完成。从网页上爬取非结构化数据,以结构化的方式储存。

非结构化数据顾名思义,就是没有固定结构的数据。 包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等都属于非结构化数据。 对于这类数据,我们一般直接整体进行存储,而且一般存储为二进制的数据格式,结构化的方式存储。

数据采集方法

      系统日志采集:使用采集工具chukwa、flume采用分布式架构

       分布式消息订阅分发:报纸亭的报纸订阅

       ETL(数据仓库技术):ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是数据的整合,为企业决策做出依据。可通过编程语言进行开发。

       网络数据采集:网站:原本是一台台的电脑服务器等电子设备。网络爬虫和API获取数据。

网络数据采集(网络爬虫)

常用的python IDE工具

       文本类IDE:IDLE  Notepad++  Sublime Text  Vim&Emacs  Atom  Komodo Edit

       集成类 IDE: PyCharm  Wing  PyDev & Eclipse  Visual Studio Anaconda & Spyder  Canopy

      IDLE: python入门、功能简单直接、300+代码以内

      Sublime Text专为程序员开发的第三方专业编程工具、专业编程体验、多种编程风格、工具非注册免费使用

       Wing公司维护,工具收费、调试功能丰富、版本控制,版本同步、适合多人共同开发、代码行30000+

       Vs&ptvs:微软公司维护、win环境为主、调试功能丰富

       Eclipse:开源IDE开发工具、需要一定开发经验

       Pycharm:社区版免费、简单,集成度高、适合编写较复杂的工程

       Camopy:公司维护,工具收费、支持近500个第三方库、适合科学计算领域应用开发

       Anaconda:开源免费、支持近800个第三方库

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/2023面试高手/article/detail/452856
推荐阅读
相关标签
  

闽ICP备14008679号