当前位置:   article > 正文

python新人小白学爬虫,学习笔记(四)——如何将网页的信息转换成结构化数据_python将本地数据库转化成结构化数据生成本地知识库

python将本地数据库转化成结构化数据生成本地知识库

上一篇博客,我们已经撰写了第一只网络爬虫,并且成功的获取了网页上的信息,但是这些信息仍然是存在网页当中,那么我们要怎么将这些非结构化的数据结构化呢,这就是今天要学习的内容了。

首先,我们所要了解的是DOM Tree。

DOM是文档对象化模型(Document Object Model)的简称。DOM Tree是指通过DOM将HTML页面进行解析,并生成的HTML tree树状结构和对应访问方法。
借助DOM Tree,我们能直接而且简易的操作HTML页面上的每个标记内容。
(以上百科)
通俗而言,DOM就是一种手段,让我们将从网页上获取的信息自动去除掉html标签,直接提取里面的信息。

所以,这个时候我们也就需要BeautifulSoup4套件,来帮我们把网页信息变成DOM Tree。

首先,新建一个python文件,导入和调用BeautifulSoup。输入下列代码:

from bs4 import BeautifulSoup
html_sample = '\
<html>\
  <body>\
  <h1 id ="title">hello world</h1>\
  <a href ="#" class = "link">This is link1</a>\
  <a href ="# link2" class = "link">This is link2</a>\
  </body>\
  </html>'

soup = BeautifulSoup(html_sample)
print(soup.text)

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13

运行后,我们发现,我们已经能够去除掉标签,只保留和显示数据内容了,但是在运行时也会提出警告:
在这里插入图片描述

它会提醒你说,你没有指明剖析器(parser)。对于这个问题,解决方法很简单,我们只需要在指明它的剖析器是html.parser 就可以了:

from bs4 import BeautifulSoup
html_sample='\
<html>\
  <body>\
  <h1 id="title">hello world</h1>\
  <a href="#" class="link">This is link1</a>\
  <a href="# link2" class="link">This is link2</a>\
  </body>\
  </html>'

soup=BeautifulSoup(html_sample,'html.parser')
print(soup.text)

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13

这样我们在运行的时候就不会有警告信息了。
在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/197152
推荐阅读
相关标签
  

闽ICP备14008679号