当前位置:   article > 正文

网页转 markdown 的工具_clean-mark

clean-mark

背景

想把我在 CSDN 的博客备份下来,最好是 markdown 格式。在探索的过程中发现了一款工具——clean-mark

它的仓库地址是:

https://github.com/croqaz/clean-mark

有人问为什么不保存成 html,而是要保存成 markdown 呢?

clean-mark 在项目主页已经说得很清楚了:

  • to save interesting articles offline, in a highly readable text format
  • it’s easy to read on a tablet, or a Kindle (as it is, or exported to PDF)
  • Markdown is easy to export into different formats
  • for offline text analysis of multiple articles, using machine learning / AI

准备工作

要用 clean-mark 这个工具,需要安装 npm 和 nodejs

NPM 的全称是 Node Package Manager,是随同 NodeJS 一起安装的包管理和分发工具,它很方便让 JavaScript 开发者下载、安装、上传以及管理已经安装的包。

sudo apt-get install npm
  • 1

除了安装 npm,还需要安装 nodejs

sudo apt-get install nodejs-dev
  • 1

我是Ubuntu 的环境,没有用上面的命令安装 nodejs,但是版本太低,需要升级

我搜到的方法是

sudo npm cache clean -f
sudo npm install -g n
sudo n stable
  • 1
  • 2
  • 3

查看版本:

node -v
npm -v
  • 1
  • 2

我升级后查看的结果是

$ node -v
v14.15.5
$ npm -v
6.14.11

  • 1
  • 2
  • 3
  • 4
  • 5

安装 clean-mark

$ npm install clean-mark --global
  • 1

如何使用

根据说明,可以指定下载的类型,可以选择的类型有:

HTML, TEXT and Markdown.

举例:

$ clean-mark “http://some-website.com/fancy-article” -t html

也可以指定输出路径和文件名,比如:

$ clean-mark “http://some-website.com/fancy-article” -o /tmp/article

咱们动手试试。比如我的一篇博客地址是

https://blog.csdn.net/longintchar/article/details/113074860

$ clean-mark "https://blog.csdn.net/u013490896/article/details/113075606"
  • 1

运行后会显示

=>  Processing URL ...
> 113075606.md
=>  URL converted!

  • 1
  • 2
  • 3
  • 4

注意:命令中的链接也可以没有两侧的引号
当前目录下会多出来一个文件 113075606.md

效果展示

在这里插入图片描述

在这里插入图片描述

参考资料

[0] https://github.com/croqaz/clean-mark

[1] ubuntu安装nodejs并升级到最新版本

本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号