赞
踩
写在前面
Python+Selenium可以做网络爬虫。所以,我们可以从网页源码中爬出想要的信息。
Selenium的page_source方法可以获取到页面源码。获取到源码以后可以再查找自己想要的信息。
源码保存
为了方便查看网页源码,我们可以借用python提供的方法,将获取到的网页源码写入到html文件中。
#get_source.py
#www.testclass.cn
#Altumn
from selenium import webdriver
driver = webdriver.Chrome()
driver.get("https://www.testclass.cn/")
driver.maximize_window()
driver.implicitly_wait(10)
page = driver.page_source
#打印源码,防止乱码加上编码格式;
print(page.encode("utf8"))
#保存网页源码名称为:testclass_cn.html,存储路径为工程根目录;
f=open('./testclass_cn.html',mode="w",encoding="utf-8")
f.write(page)
存储的网页效果(局部截图):
源码操作
成功获取源码以后,我们可以在源码中继续查找想要的信息。
例如ÿ
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。