赞
踩
给网站发起请求,并从响应中提取需要的数据的自动化程序
通过http库,对目标网站请求,相当于自己用浏览器打开网站。
常用库:urllib,requests
服务器会返回请求的内容,一般为:html,二进制文件(视频,音频),文档,json字符串
寻找自己需要的信息,就是利用正则表达式或者其他python库提取自己想要的内容。
常用库:re、beautifulsoup4
将解析得到的数据持久化到文件或者数据库中
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。