当前位置:   article > 正文

数据采集

数据采集

    数据分析的前提就是数据的数量和质量。今天介绍几种数据源和数据的采集方式。
    从数据采集角度,数据源分为开放数据源、爬虫抓取、日志采集、传感器,四类数据源。
在这里插入图片描述
    开放数据源和爬虫听得比较多(主要是我听得比较多),所以简单说一下传感器和日志采集。传感器是基于特定的设备,将设备采集的信息进行收集。基本采集的是物理信息,如图像、视频或某物体的速度、热度、压强等。日志采集是统计用户的操作。可以在前端埋点,在后端进行脚本收集、统计来分析网站的访问情况,以及使用瓶颈。下面列举一些开放的数据源。
在这里插入图片描述

如何用爬虫抓取数据

    爬虫抓取应该属于最常见的需求,比如你想要餐厅的评价数据。当然这里要注重版权问题,而且很多网站也是有反爬机制的。最直接的方法就是使用 Python 编写爬虫代码,当然前提是你

本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号