赞
踩
DOM(document object model)即文档对象模型 , 是W3C制定的标准接口规范 。HTML文档被解析后, 转化为DOM树, 树的每个结点是一个对象。DOM模型不仅描述了文档的结构, 还定义了结点对象的行为, 利用对象的方法和属性, 可以方便地访问、修改、添加和删除DOM树的结点和内容。
STU(SemanticTextualUnit)即语义文本单元,每个STU对应一个块,STU嵌套构成STU树。STU树模型扩展了STU模型,具有强大的语义描述能力。由于STU树模型具有与源HTML网页相对应的树状结构,利用HTML与DOM树的映射关系,可以将STU树与DOM树结合:向DOM树的某些结点添加描述语义的属性,生成的DOM树称为STU-DOM树,树中具有语义属性的结点称为STU结点。这样,STU-DOM树兼有DOM树和STU树的结构和语义,避免了使用额外的存储空间,简化了处理流程,而且使提取后的网页具有与源网页一致的结构和内容,可靠性和可扩展性较高。
解析器(HTMLparser)将HTML文档转化为DOM树。过滤器(filter)从DOM树中删除无关结点。分块器(partitioner)向STU结点添加语义属性,将DOM树转化为STU-DOM树,语义属性值由语义分析器(semanticanalyser)计算。剪枝器(pruner)从STU-DOM树中删除无关链接列表和没有内容的块,最后输出只含有主题信息的HTML文档。
过滤和分块是将DOM树转化为STU-DOM树的过程。过滤器从DOM树的根结点开始,递归地遍历DOM树,删除所有无关结点,遇到分块结点时调用分块器,向该结点添加语义属性,使该结点成为STU结点,当STU结点的语义属性值满足剪枝条件时,调用剪枝器处理该结点。
无关结点通常是图片(IMG)、脚本(SCRIPT)等,无关结点的标签列表是系统配置的一部分。分块结点
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。