当前位置:   article > 正文

知识图谱 (2)半结构化数据的知识抽取_抽取网站上的半结构化数据

抽取网站上的半结构化数据

1. 半结构化数据定义

类似于百科、商品列表等那种本身存在一定结构但需要进一步提取整理的数据。

  • 对于一般的有规律的页面,我们可以使用正则表达式的方式写出XPath和CSS选择器表达式来提取网页中的元素。

  • 包装器是一个能够将数据从HTML网页中抽取出来,并且将它们还原为结构化的数据的软件程序。
    使用它提取信息流程为:
    在这里插入图片描述
    2.百科类知识抽取

在这里插入图片描述

3. Web网页数据抽取:包装器生成

现在我们的目标网站是部分结构化的,如:

在这里插入图片描述

  • 包装器归纳
    借助基于有监督学习的方法,自动的从标注好的训练样例集合中学习数据抽取规则,用于从其他相同标记或相同网页模板抽取目标数据。
    在这里插入图片描述

  • 自动抽取
    对于监督学习我们知道标注数据是它的短板,因此我们想到自动抽取的方法。网站中的数据通常是用很少的一些模板来编码的,通过挖掘多个数据记录中的重复模式来寻找这些模板是可能的。
    在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/349003
推荐阅读
相关标签
  

闽ICP备14008679号