我用 Python 做了一个轻松爬取各大网站文章并输出为 Markdown 的工具！_python直接输出markdown文件

作者：IT小白 | 2024-02-28 13:14:08

踩

python直接输出markdown文件

前言

最近摸鱼看技术文章的时候，突然想到了两个需求，想与大家分享一下：

爬取各大技术网站的文章，转化为 Markdown 格式，防止文章由于不明原因下架。这样可以在本地保存一些高质量文章。
整理自己过去发布的文章。（我之前写的一些文章并没有在本地备份）

说干就干，我用了几个小时，编写并发布了一个文章爬取工具：Article Crawler，

接下来，我给大家分享一下我的制作过程！

需求分析与技术选型

对于爬取类的需求来说，我毫不犹豫地选择了 Python 来编写代码，毕竟一提到爬虫，大家第一反应就是 Python。它确实很方便，提供了很多方便快捷的包。

我们首先拆解一下需求，来确定最终需要使用的 Python 包。

从某个网站中爬取文章，需要定位文章的位置。网站中除了文章信息之外，可能还有推荐信息、作者信息、广告信息等。因此，我们需要将整个网站内容爬取下来，并从中搜索得出文章的内容。
将 HTML 文章内容转换 Markdown 格式，并输出到本地指定目录中。

对于第一个需求，我们使用 request 与 BeautifulSoup 包。

使用 request 包向指定网站发送请求，获取其 HTML 内容。
使用 BeautifulSoup 包在指定 HTML 内容中，查找对应的文章内容。

Beautiful Soup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库。它能够通过你喜欢的转换器实现惯用的文档导航 / 查找 / 修改文档的方式。Beautiful Soup 会帮你节省数小时甚至数天的工作时间。

对于第二个需求，我们使用 html2text 包。

使用 html2text 包，将指定的 HTML 文章内容，渲染为对应的 Markdown 格式。

总结技术栈如下：

技术栈	作用
request	向指定网站发送请求，获取 HTML 内容
BeautifulSoup (bs4)	快速从 HTML 内容中依据指定条件查找内容
html2text	将指定的 HTML 内容染为 Markdown 格式

实现方案

实现流程图如下：

whiteboard_exported_image (19).png

对于这一系列流程，我将其抽象为一个类 ArticleCrawler。

具体代码位于 article_crawler/article_crawler.py 文件中

其初始化 __init__ 方法如下：

python
复制代码
def __init__(self, url, output_folder, tag, class_, id=''):
    self.url = url
    self.headers = {
        'user-agent': random.choice(USER_AGENT_LIST)
    }
    self.tag = tag
    self.class_ = class_
    self.id = id
    self.html_str = html_str
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)
        print(f"{output_folder} does not exist, automatically create...")
    self.output_folder = output_folder
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

url：指定网站地址
output_folder：输出目录
tag / class_ / id：用于定位文章在网站中所处的位置。
- 举个
  声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/IT小白/article/detail/159020