当前位置:   article > 正文

使用Python爬虫和BeautifulSoup库从网页抓取中文文本_pythonbeautifulsoup查找html里所有中文字符

pythonbeautifulsoup查找html里所有中文字符
  1. # 导入requests库,用于发送HTTP请求
  2. import requests as req
  3. # 导入BeautifulSoup库,用于解析HTML文本
  4. from bs4 import BeautifulSoup
  5. # 导入re库,用于正则表达式匹配
  6. import re
  7. # 定义changeurl函数,用于改变给定的URL
  8. def changeurl(i, url):
  9. # 保存原始URL
  10. url1 = url
  11. # 将传入的整数i转换为字符串
  12. i = str(i)
  13. # 构造新的路径,将整数转换为字符串,然后添加".html"
  14. path = i + "." + "html"
  15. # 将新的路径添加到原始URL后面,形成新的URL
  16. url2 = url1 + path
  17. # 打印新的URL
  18. print(url2)
  19. # 返回新的URL
  20. return url2
  21. # 定义gethtml函数,用于获取给定URL的HTML文本
  22. def gethtml(url):
  23. # 定义请求头,使用Mozilla/5.0用户代理,使服务器认为这是一个浏览器请求
  24. headers = {
  25. "User-Agent": 'Mozilla/5.0'
  26. }
  27. # 发送GET请求到给定的URL,并设置请求头,设置超时时间为30秒
  28. r = req.get(url, headers=headers, timeout=30)
  29. # 检查是否有连接错误,如果有则抛出异常
  30. r.raise_for_status() # cope with connection errors
  31. # 返回响应的文本内容
  32. return r.text
  33. # 定义filehtml函数,用于解析HTML文本,找到id为"chaptercontent"的元素,并提取其中的中文文本
  34. def filehtml(html):
  35. # 使用BeautifulSoup解析HTML文本
  36. soup = BeautifulSoup(html, "lxml")
  37. # 找到id为"chaptercontent"的元素
  38. data1 = soup.find_all(id="chaptercontent")
  39. # 初始化一个空列表,用于保存提取的中文文本
  40. result = []
  41. # 遍历找到的元素
  42. for child in data1:
  43. # 使用正则表达式找到所有的中文字符串,并将其添加到结果列表中
  44. result.extend(re.findall(r'[\u4e00-\u9fa5]+', child.text))
  45. # 返回提取的中文字符串列表
  46. return result
  47. # 定义printhtml函数,用于打印提取的中文字符串列表
  48. def printhtml(text):
  49. # 遍历列表中的每个元素
  50. for u in text:
  51. # 将每个元素转换为字符串,并在后面添加逗号,然后打印出来
  52. u = u + ","
  53. print(u, end=" ")
  54. # 打印一个换行符
  55. print()
  56. # 定义keeptext函数,用于将提取的中文字符串列表保存到文件中,并打印"保存成功"的消息
  57. def keeptext(text):
  58. # 以追加模式打开一个名为"output.txt"的文件,使用utf-8编码
  59. with open("output.txt", "a", encoding='utf-8') as f:
  60. # 遍历提取的中文字符串列表中的每个元素
  61. for u in text:
  62. # 将每个元素写入文件,并在后面添加逗号,如果该元素的长度大于10,则添加换行符
  63. f.write(u + ",")
  64. if len(u) > 10:
  65. f.write("\n")
  66. # 打印"保存成功"的消息
  67. print("保存成功")
  68. # 返回1,表示保存操作成功完成
  69. a = 1
  70. return a
  71. # 定义main函数,作为程序的入口点
  72. def main():
  73. # 设置初始URL为""
  74. url = "/"
  75. # 从给定的URL获取HTML文本
  76. html = gethtml(url)
  77. # 从HTML文本中提取中文字符串列表,并将结果保存到变量text中
  78. text = filehtml(html)
  79. # 打印提取的中文字符串列表,每个元素以逗号分隔,打印一个换行符作为分隔符(仅为了显示方便)
  80. printhtml(text)
  81. # 将提取的中文字符串列表保存到文件"output.txt"中,并打印"保存成功"的消息(仅为了显示操作结果)
  82. a = keeptext(text)
  83. main()

本文中,我们将介绍如何使用Python的requests和BeautifulSoup库从网页中抓取中文文本。我们将通过一个具体的示例来展示这个过程,该示例将从"https://m.bqgbi.com/book/。

首先,我们需要了解这个网页的结构。在这个示例中,我们关注的是id为"chaptercontent"的HTML元素,它包含了我们要抓取的中文文本。

我们使用requests库发送HTTP GET请求来获取网页的HTML文本,然后使用BeautifulSoup库来解析HTML并找到我们感兴趣的元素。BeautifulSoup库能够将复杂的HTML树结构转化为简单易用的Python对象,使我们能够轻松地找到并提取我们需要的元素。

在找到需要的元素后,我们使用正则表达式来从其文本中提取所有的中文字符串。这些字符串被保存在一个列表中,然后我们可以通过在控制台上打印或保存到文件中等方式来查看或处理这些字符串。

最后,我们在一个循环中重复以上步骤,从一个到另一个网页,从而抓取更多的中文文本。

这个过程可能不是完美的,因为不同的网页可能会有不同的结构和样式。但是,通过使用Python的requests和BeautifulSoup库,我们可以轻松地处理大多数的网页,并从中抓取我们需要的中文文本。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/417529
推荐阅读
相关标签
  

闽ICP备14008679号