赞
踩
从数据采集的角度看,数据源可以分为以下三类
一、开放数据源:一般是针对行业的数据库。可以两个维度来考虑:
1)单位:政府、企业和高校
2)行业:比如交通、金融、能源等
二、爬虫抓取:一般是针对特定的网站或APP。
1、使用python编写爬虫代码,会经历以下过程
1)使用requests爬取内容。使用requests库抓取网页信息
2)使用XML Path解析内容。
3)使用pandas保存数据
2、不用编程也可以抓取网页信息的抓取工具
火车采集器、八爪鱼、集搜客
三、日志采集:统计用户的操作。在前端进行埋点、在后端进行脚本收集、统计,来分析网站的访问情况,以及使用瓶颈
日志记录了用户访问网址的全过程:哪些人在什么时间,通过什么渠道来过,执行了哪些操作;系统是否产生了错误;甚至包括用户的IP、HTTP请求的时间,用户代理等。
埋点是日志采集的关键步骤。埋点就是在有需要的位置采集相应的信息,进行上报。每个埋点就像一台摄像头,采集用户行为数据,将数据进行多纬度的交叉分析,可真实还原出用户使用场景和用户使用需求。
如何进行埋点:在你需要统计数据的地方植入统计代码,代码可以自己写,也可以使用第三方统计工具。比如友盟、Google Analysis、Talkingdata等。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。