赞
踩
数据采集的三大要点
全面性:数据量足够具有分析价值、数据面足够支撑分析需求。
多维性:数据能够满足分析需求。
高效性:分布式的进行,合理分配,团队内部成员协同的高效性以及数据分析需求和目标实现的高效性。
数据采集的数据源
主要数据源:传感器数据、互联网数据、日志文件、企业业务系统数据。
我们主要是采集互联网数据,通常借助网络爬虫来完成。从网页上爬取非结构化数据,以结构化的方式储存。
非结构化数据顾名思义,就是没有固定结构的数据。 包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等都属于非结构化数据。 对于这类数据,我们一般直接整体进行存储,而且一般存储为二进制的数据格式,结构化的方式存储。
数据采集方法
系统日志采集:使用采集工具chukwa、flume采用分布式架构
分布式消息订阅分发:报纸亭的报纸订阅
ETL(数据仓库技术):ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是数据的整合,为企业决策做出依据。可通过编程语言进行开发。
网络数据采集:网站:原本是一台台的电脑服务器等电子设备。网络爬虫和API获取数据。
网络数据采集(网络爬虫)
常用的python IDE工具
文本类IDE:IDLE Notepad++ Sublime Text Vim&Emacs Atom Komodo Edit
集成类 IDE: PyCharm Wing PyDev & Eclipse Visual Studio Anaconda & Spyder Canopy
IDLE: python入门、功能简单直接、300+代码以内
Sublime Text:专为程序员开发的第三方专业编程工具、专业编程体验、多种编程风格、工具非注册免费使用
Wing:公司维护,工具收费、调试功能丰富、版本控制,版本同步、适合多人共同开发、代码行30000+
Vs&ptvs:微软公司维护、win环境为主、调试功能丰富
Eclipse:开源IDE开发工具、需要一定开发经验
Pycharm:社区版免费、简单,集成度高、适合编写较复杂的工程
Camopy:公司维护,工具收费、支持近500个第三方库、适合科学计算领域应用开发
Anaconda:开源免费、支持近800个第三方库
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。