赞
踩
这次将讲解如何将爬取的内容,保存到本地。
代码内容比较多,所需的库比较多,需要一定爬虫基础和pandas数据处理基础,建议用jupyter做
直接附上代码,代码有简单的备注:
- from selenium.webdriver.common.by import By # 寻找id、类等的库
- from selenium import webdriver
- from selenium.webdriver.support.ui import WebDriverWait # 显示等待:WebDriverWait()
- from selenium.webdriver.support import expected_conditions as EC # 判断一个元素是否存在,是否符合条件
- import pandas as pd
- from lxml import etree
- url = 'https://movie.douban.com/subject/26266893/comments?status=P'
- driver = webdriver.Chrome() # 实例化谷歌浏览器插件
- driver.get(url) # 打开网页
- all_data = pd.DataFrame() # 创建数据框存储数据
- wait = WebDriverWait(driver, 10) # 是等待变量
这里会弹出网页界面,然后点击登录,运行下一步代码即可
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。