当前位置:   article > 正文

python 爬虫 生成markdown文档

python 爬虫 生成markdown文档

本文介绍的案例为使用python爬取网页内容并生成markdown文档,首先需要确定你所需要爬取的框架结构,根据网页写出对应的爬取代码

1.分析总网页的结构

我选用的是redis.net.com/order/xxx.html

(如:Redis Setnx 命令_只有在 key 不存在时设置 key 的值。);

进入后,f12,进入开发者模式,选中左侧元素

可看到,我们需要爬取的内容是div标签下的class为left的数据,ul下的li下的a标签的 href元素,

这段对应的python为

  1. req = requests.get(url="https://www.redis.net.cn/order/3552.html") #使用get方式获取该网页的数据。实际上我们获取到的就是浏览器打开百度网址时候首页画面的数据信息
  2. #print(req.text) #把我们获取数据的文字(text)内容输出(print)出来
  3. req.encoding = "utf-8" #指定获取的网页内容,即第二句定义req的内容,用utf-8编码
  4. html = req.text #指定获取的网页内容,即第二句定义req的内容,用text
  5. soup = BeautifulSoup(req.text,features="html.parser") #用html解析器(parser)来分析我们requests得到的html文字内容,soup就是我们解析出来的结果
  6. # 查找特定的div下的ul下的li下的a标签
  7. div = soup.find('div',class_="left")
  8. ul = div.find('ul')
  9. li_list = ul.find_all('li')
  10. href_list=[]
  11. # 遍历li标签并获取a标签的href内容
  12. for li in li_list:
  13. a = li.find('a')
  14. href = "https://www.redis.net.cn"+a['href']
  15. href_list.append(href)
  16. # print(href)
  17. n=1;

于是乎,我们就获得了以下链接地址

2.分析每个链接下的网页结构

首先可分为以下几个结构

第一个为全局唯一的h1标签中的内容,并且处于div class为page-header中,因此代码为

  1. div_title=soup.find('div',class_="page-header")
  2. h1_title=div_title.find('h1').text

语法段的信息获取

  1. pres = soup.find_all('pre', class_='prettyprint linenums')
  2. syntax=pres[0].text.strip()

简介版本返回值,分别都是h3标签下的数据

  1. h3_tag = soup.find_all('h3')
  2. introduction_tags = h3_tag[0].find_previous_siblings('p')
  3. introduction=""
  4. version=""
  5. return_value=""
  6. for p_tag in introduction_tags:
  7. introduction+=p_tag.text.strip()
  8. version_tags=h3_tag[1].find_next_sibling('p')
  9. for p_tag in version_tags:
  10. version+=p_tag.text.strip()
  11. return_tags=h3_tag[2].find_next_sibling('p')
  12. for p_tag in return_tags:
  13. return_value+=p_tag.text.strip()

示例段的数据获取

  1. pres = soup.find_all('pre', class_='prettyprint linenums')
  2. if len(pres) >=2:
  3. examples=pres[1].text.strip()
  4. else :examples = ""

3.markdown源代码生成

  1. # 定义一个方法来生成Markdown内容
  2. def generate_markdown(website_obj,n):
  3. markdown_content = "# "+str(n)+f".{website_obj.title}\n\n"
  4. markdown_content += f"## 简介\n```\n{website_obj.introduction}\n```\n\n"
  5. markdown_content += f"## 语法\n```\n{website_obj.syntax}\n```\n\n"
  6. markdown_content += f"### 可用版本: {website_obj.version}\n\n"
  7. markdown_content += f"### 返回值: {website_obj.return_value}\n\n"
  8. markdown_content += f"## 示例\n\n```shell\n"
  9. for example in website_obj.examples:
  10. markdown_content += f"{example}"
  11. markdown_content += "\n```\n"
  12. return markdown_content
'
运行

4.完整示例

  1. import requests #导入我们需要的requests功能模块
  2. from bs4 import BeautifulSoup #使用BeautifulSoup这个功能模块来把充满尖括号的html数据变为更好用的格式,from bs4 import BeautifulSoup这个是说从bs4这个功能模块中导入BeautifulSoup,是的,因为bs4中包含了多个模块,BeautifulSoup只是其中一个
  3. class Website:
  4. def __init__(self, href, title,syntax,examples,introduction,version,return_value):
  5. self.href = href
  6. self.title = title
  7. self.syntax=syntax
  8. self.examples=examples
  9. self.introduction=introduction
  10. self.version=version
  11. self.return_value=return_value
  12. def __str__(self):
  13. return f"Website(href={self.href}, title={self.title},syntax={self.syntax},examples={self.examples},introduction={self.introduction},version={self.version},return_value={self.return_value})"
  14. # 定义一个方法来生成Markdown内容
  15. def generate_markdown(website_obj,n):
  16. markdown_content = "# "+str(n)+f".{website_obj.title}\n\n"
  17. markdown_content += f"## 简介\n```\n{website_obj.introduction}\n```\n\n"
  18. markdown_content += f"## 语法\n```\n{website_obj.syntax}\n```\n\n"
  19. markdown_content += f"### 可用版本: {website_obj.version}\n\n"
  20. markdown_content += f"### 返回值: {website_obj.return_value}\n\n"
  21. markdown_content += f"## 示例\n\n```shell\n"
  22. for example in website_obj.examples:
  23. markdown_content += f"{example}"
  24. markdown_content += "\n```\n"
  25. return markdown_content
  26. req = requests.get(url="https://www.redis.net.cn/order/3552.html") #使用get方式获取该网页的数据。实际上我们获取到的就是浏览器打开百度网址时候首页画面的数据信息
  27. #print(req.text) #把我们获取数据的文字(text)内容输出(print)出来
  28. req.encoding = "utf-8" #指定获取的网页内容,即第二句定义req的内容,用utf-8编码
  29. html = req.text #指定获取的网页内容,即第二句定义req的内容,用text
  30. soup = BeautifulSoup(req.text,features="html.parser") #用html解析器(parser)来分析我们requests得到的html文字内容,soup就是我们解析出来的结果
  31. # 查找特定的div下的ul下的li下的a标签
  32. div = soup.find('div',class_="left")
  33. ul = div.find('ul')
  34. li_list = ul.find_all('li')
  35. href_list=[]
  36. # 遍历li标签并获取a标签的href内容
  37. for li in li_list:
  38. a = li.find('a')
  39. href = "https://www.redis.net.cn"+a['href']
  40. href_list.append(href)
  41. # print(href)
  42. n=1;
  43. for hrefitem in href_list:
  44. req = requests.get(url=hrefitem)
  45. req.encoding = "utf-8" # 指定获取的网页内容,即第二句定义req的内容,用utf-8编码
  46. html = req.text # 指定获取的网页内容,即第二句定义req的内容,用text
  47. soup = BeautifulSoup(req.text, features="html.parser")
  48. div_title=soup.find('div',class_="page-header")
  49. h1_title=div_title.find('h1').text
  50. pres = soup.find_all('pre', class_='prettyprint linenums')
  51. syntax=pres[0].text.strip()
  52. if len(pres) >=2:
  53. examples=pres[1].text.strip()
  54. else :examples = ""
  55. h3_tag = soup.find_all('h3')
  56. introduction_tags = h3_tag[0].find_previous_siblings('p')
  57. introduction=""
  58. version=""
  59. return_value=""
  60. for p_tag in introduction_tags:
  61. introduction+=p_tag.text.strip()
  62. version_tags=h3_tag[1].find_next_sibling('p')
  63. for p_tag in version_tags:
  64. version+=p_tag.text.strip()
  65. return_tags=h3_tag[2].find_next_sibling('p')
  66. for p_tag in return_tags:
  67. return_value+=p_tag.text.strip()
  68. website=Website(href,h1_title,syntax,examples,introduction,version,return_value)
  69. # print(introduction)
  70. # print(website.__str__())
  71. # 使用上述定义的方法生成Markdown源码
  72. markdown_source = generate_markdown(website,n)
  73. n=n+1
  74. print(markdown_source)

以上案例可将redis key命令篇的案例,爬取生成markdown代码,如果需要爬取多类代码,可修改

req = requests.get(url="https://www.redis.net.cn/order/3552.html") 中的url属性为你所想爬取的类型的一种命令的网址。
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小舞很执着/article/detail/862075
推荐阅读
相关标签
  

闽ICP备14008679号