当前位置:   article > 正文

Python爬虫(selenium)从网站获取信息并存入数据库(mysql)_selenium爬取数据并插入数据库

selenium爬取数据并插入数据库

简介: 在本篇博客中,我们将介绍如何使用Python编写一个简单的网络爬虫,从指定网站上获取图书信息,并将这些信息存入数据库。这个项目涉及到Python编程、selenium爬虫技术以及数据库操作等内容,适合对这些领域感兴趣的初学者。

1. 什么是网络爬虫? 网络爬虫(也称为网络蜘蛛、网络机器人)是一种自动获取网页内容的程序,它模拟人的行为去各个网站抓取数据或返回数据。通过网络爬虫技术,我们可以从互联网中获取丰富的数据,为后续的数据分析和处理提供支持。

2. 项目概述: 本次项目爬取的是一个图书网站:scrape book,我们的项目包括四个主要部分:

  • CONN.py:连接数据库模块,负责与MySQL数据库建立连接。
  • create_table.py:创建数据表模块,创建一个名为book_info的数据表,用于存储图书信息。
  • insert_info.py:插入数据模块,向数据表中插入图书信息。
  • main.py:主程序模块,负责爬取网页数据,并调用插入数据模块将信息存入数据库。

3. 项目详解:

具体爬取内容:

爬取一个网站的前提是了解这个网站的内容,以及网页布局,最后确定自己需要爬取的内容等。

首先准备工作:

工具(主要是方便查看数据库内容):Navicat Premium 是一款功能强大的数据库管理工具,提供了用户友好的图形用户界面,使数据库管理变得更加简单和直观。为了更直观的查看数据库里面各种信息,建议安装这个软件,连接也很简单,点新建连接,就会弹出如下页面,连接名随意,其他都不用改,密码就是你安装mysql时设置的密码,我的就是123456,之后的连接数据库等的password也都是这个

然后,如果没有数据库需要先创建一个数据库,具体方法有很多,可以直接用navicat premium,直接右键连接,再点新建数据库,便创建好了,也可以用代码连接并创建数据库。

  1. #此代码为数据库的创建,如果已经有数据库,则可忽略
  2. import pymysql
  3. conn = pymysql.connect(
  4. host='localhost',
  5. port=3306,
  6. user='root',
  7. password='123456',
  8. charset='utf8mb4',
  9. )
  10. # 创建数据库test
  11. create_db_sql = "CREATE DATABASE IF NOT EXISTS Scrape_book;"#此处创建了名为:Scrape_book的数据库
  12. cursor = conn.cursor()
  13. cursor.execute(create_db_sql)
  14. # 关闭游标
  15. cursor.close()
  16. # 关闭连接
  17. conn.close()

接下来便是主要的代码:

  • CONN.py:这个模块定义了一个函数connect_mysql(),用于连接MySQL数据库,并返回连接对象。我们需要提供数据库的主机地址、用户名、密码、数据库名以及字符集等信息。
  • 注意:此处是Scrape_book这个数据库是已经存在的,如果没有数据库的请先创建数据库。
  1. import pymysql
  2. def connect_mysql():
  3. #建立与MySQL数据库的连接
  4. conn = pymysql.connect(
  5. host='localhost',
  6. user='root',
  7. password='123456',
  8. db='Scrape_book',
  9. charset='utf8mb4'
  10. )
  11. return conn
  • create_table.py:在这个模块中,我们使用了CON.py中定义的连接函数,连接到MySQL数据库。然后,我们使用SQL语句创建了一个名为book_info的数据表,用于存储图书信息。
  1. import CONN
  2. def create_tables():
  3. conn = CONN.connect_mysql()
  4. cursor = conn.cursor()
  5. # 创建数据表
  6. create_table_sql = '''
  7. CREATE TABLE IF NOT EXISTS book_info (
  8. `key` INT AUTO_INCREMENT PRIMARY KEY,
  9. title VARCHAR(50),
  10. score VARCHAR(20),
  11. typeN VARCHAR(50),
  12. price VARCHAR(20),
  13. author VARCHAR(50),
  14. published_at VARCHAR(50),
  15. page_number VARCHAR(50),
  16. publisher VARCHAR(50),
  17. isbm VARCHAR(50)
  18. )
  19. '''
  20. cursor.execute(create_table_sql)
  21. conn.commit()
  22. conn.close()
  23. cursor.close()
  24. create_tables()
  • insert_info.py:这个模块定义了一个函数insert_info(info),用于向数据库中插入图书信息。我们需要提供待插入的图书信息作为参数,并通过SQL语句执行插入操作。
  1. import CONN
  2. def insert_info(info):
  3. conn =CONN.connect_mysql()
  4. cursor =conn.cursor()
  5. sql = "INSERT INTO book_info(title,score,typeN,price,author,published_at,publisher,page_number,isbm) VALUES(%s,%s,%s,%s,%s,%s,%s,%s,%s)"
  6. values = (info)
  7. cursor.execute(sql, values)
  8. conn.commit()
  9. cursor.close()
  10. conn.close()
  • main.py:这是项目的核心模块,主要负责爬取网页数据。我们使用了Selenium库来模拟浏览器行为,从指定的网站获取图书信息。然后,我们调用插入数据模块将信息存入数据库。
  1. # 导入所需的库
  2. from selenium import webdriver
  3. from selenium.webdriver.common.by import By
  4. from selenium.webdriver.support import expected_conditions as EC
  5. from selenium.webdriver.support.wait import WebDriverWait
  6. import time
  7. import insert_info
  8. # 初始化一个 Chrome WebDriver 实例
  9. driver = webdriver.Chrome()
  10. driver.maximize_window()# 设置浏览器全屏
  11. driver.get('https://spa5.scrape.center')# 打开目标网站
  12. time.sleep(2)# 等待 2 秒,确保页面加载完成
  13. # 定义函数,用于获取书籍信息
  14. def get_info():
  15. # 初始化一个空列表,用于存放书籍的标签
  16. ty=[]
  17. # 获取书籍标签
  18. try:
  19. # 使用 XPath 定位符找到包含标签信息的按钮元素
  20. t = driver.find_elements(by=By.XPATH, value="//button[@class='el-button el-button--primary el-button--mini']/span")
  21. for i in t:# 遍历按钮元素,提取其中的文本信息,将标签存入列表中
  22. ty.extend(i.text)
  23. ty.extend('/')
  24. # 将列表中的标签信息拼接为一个字符串,并删除最后一个字符(因为最后一个字符是多余的斜杠)
  25. tag =''.join(ty)[:-1]
  26. except:
  27. tag = 'N/A'
  28. # 获取评分信息
  29. try:
  30. score = driver.find_element(by=By.XPATH, value="//span[@class='score m-r']").text
  31. except:
  32. score = 'N/A'
  33. # 获取书籍标题信息
  34. try:
  35. title = driver.find_element(by=By.XPATH, value="//h2[@class='m-b-sm name' ]").text
  36. except:
  37. title = 'N/A'
  38. # 获取价格信息
  39. try:
  40. price = driver.find_element(by=By.XPATH, value="//div[@class='info']/p[@class='price']").text
  41. except:
  42. price = 'N/A'
  43. # 获取作者信息
  44. try:
  45. author = driver.find_element(by=By.XPATH, value="//div[@class='info']/p[@class='authors']").text
  46. except:
  47. author = 'N/A'
  48. # 获取出版日期信息
  49. try:
  50. published_at = driver.find_element(by=By.XPATH,value="//div[@class='info']/p[@class='published-at']").text
  51. except:
  52. published_at='N/A'
  53. # 获取出版社信息
  54. try:
  55. publisher = driver.find_element(by=By.XPATH,value="//div[@class='info']/p[@class='publisher']").text
  56. except:
  57. publisher = 'N/A'
  58. # 获取页数信息
  59. try:
  60. page_number = driver.find_element(by=By.XPATH,value="//div[@class='info']/p[@class='page-number']").text
  61. except:
  62. page_number='N/A'
  63. # 获取ISBN信息
  64. try:
  65. isbm = driver.find_element(by=By.XPATH, value="//div[@class='info']/p[@class='isbn']").text
  66. except:
  67. isbm = 'N/A'
  68. # 将所有信息组合成一个列表并返回
  69. full_info = [title,score,tag,price,author,published_at, publisher,page_number,isbm]
  70. return full_info
  71. # 设置一个循环,用于爬取多页数据
  72. o = 0
  73. while o < 10:
  74. o += 1
  75. # 等待页面元素加载完成
  76. WebDriverWait(driver, 30).until(EC.presence_of_element_located((By.XPATH, "//div[@class='top el-row']/div[@class='el-col el-col-24']/a")))
  77. time.sleep(3)
  78. book_page = driver.find_elements(By.XPATH, "//div[@class='top el-row']/div[@class='el-col el-col-24']/a")
  79. for i in range(len(book_page)):
  80. # 点击链接,进入书籍详情页面
  81. driver.execute_script("arguments[0].click();", book_page[i])
  82. WebDriverWait(driver, 30).until(EC.presence_of_element_located((By.XPATH, "//div[@class='info']")))
  83. # 调用 get_info 函数获取书籍信息,并插入数据库
  84. insert_info.insert_info(get_info())
  85. #返回上一页
  86. driver.back()
  87. # 再次等待书籍列表页面加载完成
  88. WebDriverWait(driver, 30).until(EC.presence_of_element_located((By.XPATH, "//div[@class='top el-row']/div[@class='el-col el-col-24']/a")))
  89. book_page = driver.find_elements(By.XPATH, "//div[@class='top el-row']/div[@class='el-col el-col-24']/a")
  90. # 等待翻页按钮加载完成
  91. WebDriverWait(driver, 30).until(EC.presence_of_element_located((By.XPATH, "//div[@class='top el-row']/div[@class='el-col el-col-24']/a")))
  92. # 找到并点击下一页按钮
  93. next_btn = driver.find_element(By.CLASS_NAME, "btn-next") # 修改为 next_btn,避免拼写错误
  94. driver.execute_script("arguments[0].click();", next_btn)
  95. # 关闭浏览器
  96. driver.close()

4. 实现过程:

  • 我们首先运行main.py,它会打开一个Chrome浏览器窗口,并访问指定的网站(https://spa5.scrape.center)。
  • 然后,通过Selenium模拟点击页面中的链接,进入到具体的图书信息页面。
  • 在每个图书信息页面中,我们使用Selenium获取图书的标题、评分、标签、价格、作者、出版日期、出版社、页数和ISBN等信息。
  • 接着,我们调用插入数据模块,将获取到的信息存入MySQL数据库中的book_info表中。
  • 最后,我们在循环中重复以上步骤,直到获取了足够的图书信息为止。

5. 结果展示:

6. 总结:

通过这个项目,我们学习了如何使用Python编写一个简单的网络爬虫,从网站上获取数据并存入数据库。我们掌握了Selenium库的基本用法,学会了如何模拟浏览器行为。同时,我们也学习了如何使用MySQL数据库进行数据存储和管理。这些都是在数据处理和分析过程中非常重要的技能,希望本文对初学者有所帮助。

以上就是本篇博客的全部内容,希望读者能够通过学习这个项目,对网络爬虫技术有所了解,并且能够进一步探索更多有趣的项目和应用。

关于作者: 作者是一个对Python编程和数据科学感兴趣的初学者,希望通过自己的学习和实践,与大家一起分享有趣的技术和项目。如果您对本文有任何问题或建议,欢迎在评论区留言,作者会尽快回复。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/642566
推荐阅读
相关标签
  

闽ICP备14008679号