赞
踩
这两天看了一下,没想到这个小脚本的阅读量挺高的,认真说,我觉得自己写的这篇博客蛮粗糙的,因为是第一篇嘛。为了方便入门的同学尽早掌握爬虫,这里我得把这篇博客完善一下。写爬虫程序一定要会使用Google开发者工具,这个chrome浏览器自带的,F12快捷键就直接出来了,然后选中network面板,再刷新页面,network里面就会对请求信息进行抓取;另外一种方式是安装抓包工具,比如fiddler,不过要对浏览器进行配置,但fiddler功能非常强大,可以对电脑上的所有网络请求信息进行抓取。爬虫的关键是在于分析问题。
() 最近从Java开始转python,因为工作需求,需要做一些爬虫的工作,所以看了一两天的python语法就直接开干了,学习python爬虫直接从一些小例子开始,下面记录一下,希望能对大家有一些参考意义。
爬取目标是京东上的手机信息
爬取的url链接和手机信息如上图。废话不多说,直接上代码:
import requests from bs4 import BeautifulSoup url="https://list.jd.com/list.html?cat=9987,653,655" html=requests.get(url) #request的get 方法来获取html html.encoding="utf-8" #设置编码方式位utf-8,防止乱码 # print(html.text) soup=BeautifulSoup(html.text,"html.parser") #BeautifulSoup是一个网页解析库,利用它不用写正则就可以实现网页信息的抓取 # print(soup.select('.J_price')) # print(soup.find_all('em')[35]) file = open('jngdong.txt','w+',encoding='utf-8') #打开一个文件,w+:如果没有,则创建文件;如果文件存在,则将其覆盖并清空原有内容 #print(soup.select('.p-name em')) #select css选择器 class为p-name 中的em子元素 for em in soup.select('.p-name em '): #soup.select('.p-name em ')得到的是一个列表,遍历它 content = em.get_text() #得到子元素的内容 file.write(content+'\n') #写入文件并换行 file.close() #关闭文件 print('爬虫已完成')
注释对代码进行了详细的解释,所以也不在啰嗦了。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。