当前位置:   article > 正文

Python爬虫html转markdown_python 爬虫保存为markdown

python 爬虫保存为markdown

Python爬虫html转markdown

说明

动态博客转静态博客(例如typecho转hexo),在上传静态博客文章时往往需要md文件

通过这个程序我我们可以很方便地以爬虫的方式获取markdown文档

代码

下面给出代码框架,根据需要进行修改即可运行

import requests
from bs4 import BeautifulSoup
import html2text as ht

url = '' #此处写你要爬虫的url

#爬虫
res = requests.get(url)
data = res.content
cont = BeautifulSoup(data, 'html.parser')
#获取包含文章内容的标签 attrs后跟的是最外层标签属性,根据爬取网站的实际情况进行修改
data = cont.find('div',attrs={'id':'post'}).text

#对上述字符串data进行处理,去除不能转换成markdown的标签,比如div等
#该部分代码根据需要自行添加,此处不给出

#转换
text_maker = ht.HTML2Text()
text_maker.bypass_tables = False
text = text_maker.handle(data)

#对获取的md格式的文本进行操作,比如写入到一个文件中,此处作为演示直接输出
print(text)



  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/74363
推荐阅读
相关标签
  

闽ICP备14008679号