赞
踩
Goose:一个Python库,用于从新闻文章中提取正文和元数据。
Newspaper:一个Python库,用于从新闻文章中提取正文、作者、发布日期等元数据。
Justext:一个Python库,用于从HTML页面中提取正文。
Boilerpipe:一个Java库,用于从HTML页面中提取正文。
Readability:一个Python库,用于从HTML页面中提取正文。
GNE:GNE(GeneralNewsExtractor)是一个通用新闻网站正文抽取模块,输入一篇新闻网页的 HTML, 输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。
这些工具都可以帮助开发者从新闻网页中提取出正文内容,但它们的实现方式和效果可能会有所不同。开发者可以根据自己的需求选择适合自己的工具。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。