赞
踩
数据分析的前提就是数据的数量和质量。今天介绍几种数据源和数据的采集方式。
从数据采集角度,数据源分为开放数据源、爬虫抓取、日志采集、传感器,四类数据源。
开放数据源和爬虫听得比较多(主要是我听得比较多),所以简单说一下传感器和日志采集。传感器是基于特定的设备,将设备采集的信息进行收集。基本采集的是物理信息,如图像、视频或某物体的速度、热度、压强等。日志采集是统计用户的操作。可以在前端埋点,在后端进行脚本收集、统计来分析网站的访问情况,以及使用瓶颈。下面列举一些开放的数据源。
爬虫抓取应该属于最常见的需求,比如你想要餐厅的评价数据。当然这里要注重版权问题,而且很多网站也是有反爬机制的。最直接的方法就是使用 Python 编写爬虫代码,当然前提是你
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。