赞
踩
动态博客转静态博客(例如typecho转hexo),在上传静态博客文章时往往需要md文件
通过这个程序我我们可以很方便地以爬虫的方式获取markdown文档
下面给出代码框架,根据需要进行修改即可运行
import requests from bs4 import BeautifulSoup import html2text as ht url = '' #此处写你要爬虫的url #爬虫 res = requests.get(url) data = res.content cont = BeautifulSoup(data, 'html.parser') #获取包含文章内容的标签 attrs后跟的是最外层标签属性,根据爬取网站的实际情况进行修改 data = cont.find('div',attrs={'id':'post'}).text #对上述字符串data进行处理,去除不能转换成markdown的标签,比如div等 #该部分代码根据需要自行添加,此处不给出 #转换 text_maker = ht.HTML2Text() text_maker.bypass_tables = False text = text_maker.handle(data) #对获取的md格式的文本进行操作,比如写入到一个文件中,此处作为演示直接输出 print(text)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。