数据采集的三大要点、数据源、方法和网络数据采集

作者：2023面试高手 | 2024-04-19 17:15:50

踩

数据采集的三大要点

全面性：数据量足够具有分析价值、数据面足够支撑分析需求。

多维性：数据能够满足分析需求。

高效性：分布式的进行，合理分配，团队内部成员协同的高效性以及数据分析需求和目标实现的高效性。

数据采集的数据源

主要数据源：传感器数据、互联网数据、日志文件、企业业务系统数据。

我们主要是采集互联网数据，通常借助网络爬虫来完成。从网页上爬取非结构化数据，以结构化的方式储存。

非结构化数据顾名思义，就是没有固定结构的数据。包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等都属于非结构化数据。对于这类数据，我们一般直接整体进行存储，而且一般存储为二进制的数据格式，结构化的方式存储。

数据采集方法

系统日志采集：使用采集工具chukwa、flume采用分布式架构

分布式消息订阅分发：报纸亭的报纸订阅

ETL（数据仓库技术）：ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，目的是数据的整合，为企业决策做出依据。可通过编程语言进行开发。

网络数据采集：网站：原本是一台台的电脑服务器等电子设备。网络爬虫和API获取数据。

网络数据采集（网络爬虫）

常用的python IDE工具

文本类IDE：IDLE Notepad++ Sublime Text Vim&Emacs Atom Komodo Edit

集成类 IDE： PyCharm Wing PyDev & Eclipse Visual Studio Anaconda & Spyder Canopy

IDLE: python入门、功能简单直接、300+代码以内

Sublime Text：专为程序员开发的第三方专业编程工具、专业编程体验、多种编程风格、工具非注册免费使用

Wing：公司维护，工具收费、调试功能丰富、版本控制，版本同步、适合多人共同开发、代码行30000+

Vs&ptvs：微软公司维护、win环境为主、调试功能丰富

Eclipse：开源IDE开发工具、需要一定开发经验

Pycharm：社区版免费、简单，集成度高、适合编写较复杂的工程

Camopy：公司维护，工具收费、支持近500个第三方库、适合科学计算领域应用开发

Anaconda：开源免费、支持近800个第三方库

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/2023面试高手/article/detail/452856