赞
踩
1. 半结构化数据定义
类似于百科、商品列表等那种本身存在一定结构但需要进一步提取整理的数据。
对于一般的有规律的页面,我们可以使用正则表达式的方式写出XPath和CSS选择器表达式来提取网页中的元素。
包装器是一个能够将数据从HTML网页中抽取出来,并且将它们还原为结构化的数据的软件程序。
使用它提取信息流程为:
2.百科类知识抽取
3. Web网页数据抽取:包装器生成
现在我们的目标网站是部分结构化的,如:
包装器归纳
借助基于有监督学习的方法,自动的从标注好的训练样例集合中学习数据抽取规则,用于从其他相同标记或相同网页模板抽取目标数据。
自动抽取
对于监督学习我们知道标注数据是它的短板,因此我们想到自动抽取的方法。网站中的数据通常是用很少的一些模板来编码的,通过挖掘多个数据记录中的重复模式来寻找这些模板是可能的。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。