当前位置:   article > 正文

创新实训【2】——爬虫知乎_爬虫实验报告知乎

爬虫实验报告知乎

爬取内容

因为知乎爬虫大部分需要登录,有时使用selenium无法访问页面,先爬取了一个有关山东大学话题的网页。主要包括了具体链接,话题分类和具体话题。
链接如下:https://www.zhihu.com/topic/19864829/index

使用工具

  • python3.7
  • selenium
  • chromeDirver

具体代码在这里插入图片描述

import time
from selenium import webdriver
import warnings
warnings.filterwarnings("ignore")

url='https://www.zhihu.com/topic/19864829/index'
driver=webdriver.Chrome()
driver.get(url)
time.sleep(5)
#print("获取网页")


f=open("zhihu_urls.csv",'a',encoding='utf-8')
ls=['链接','题目','话题']
f.write(",".join(ls)+"\n")

for topicmodule in driver.find_element_by_class_name("TopicIndex-contentMain").find_elements_by_class_name("TopicIndexModule"):
    #话题分类
    topic=topicmodule.find_element_by_class_name("TopicIndexModule-title").text 

    for item in topicmodule.find_elements_by_class_name("TopicIndexModule-item"):
        topic_info=[]
        href=item.find_element_by_tag_name("a").get_attribute("href") #链接
        title=item.find_element_by_tag_name("a").text  #具体话题

        topic_info.append(href)
        topic_info.append(title)
        topic_info.append(topic)
        print(topic_info)

       f.write(",".join(topic_info) + "\n")

f.close()
driver.quit()
print("爬取知乎话题成功")
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35

运行结果在这里插入图片描述

csv内容:
在这里插入图片描述

声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号