赞
踩
网页数据提取的主要两种方法:正则表达式,xpath。通过 xpath 可以获取某个 html 标签节点。比如,一篇 blog 网页,它的主体内容都在某个标签里面,可能是某个 div。用 xpath 得到这个 div,转换为 html,就是包含了格式及其图片的部分,你保存这段 html 代码而纯文本就好了。
爬虫的部署,不一定是分布式的。大规模的爬虫,突破了目的网站限制的爬虫才会涉及到分布式,分布式的好处是抓取速度提高,但是管理会比较复杂。
这个话题就包含很多子任务了:怎么自动抽取文章的内容,如何处理各种各样的时间格式,怎样处理翻页
比较著名的算法是,Google 的 simhash,但具体实践中比较复杂。网传百度的做法是把文章的最长一句话(或多句)做 hash,这个 hash 值就是文章唯一性代表(指纹),这个方法准确率很高,但是召回率比较低,一旦这最长的几句话改一个字就不能召回;我改进了该方法,对 n 句 最长的话分别做 hash,一个文章由 n 个指纹(例如人的是个指头指纹都不一样)确定唯一性。准确率和召回率都还不错。
这个没有办法完全使用技术实现,因为现阶段的自然语言处理技术还不是很好。
我自己的是通过机器来爬取网站的大量数据,然后自己再人工去筛选数据,这个需要花费大量的时间的,然后就把几个不同网页的数据自己整合成一段话之类的。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。