当前位置:   article > 正文

python soup.find_初识python 之 爬虫:BeautifulSoup 的 find、find_all、select 方法

python soup.find

from bs4 import BeautifulSoup

lxml 以lxml形式解析html,例:BeautifulSoup(html,'lxml') # 注:html5lib 容错率最高

find 返回找到的第一个标签

find_all 以list的形式返回找到的所有标签

limit 指定返回的标签个数

attrs 将标签属性放到一个字典中

string 获取标签下的非标签字符串(值), 返回字符串

strings 获取标签下的所有非标签字符串, 返回生成器。

stripped_strings 获取标签下的所有非标签字符串,并剔除空白字符,返回生成器。

get_text # 获取标签下的所有非标签字符串,返回字符串格式

contents、children都是返回某个标签下的直接子元素,包含字符串。 contents 返回一个列表,children 返回一个生成器

select 方法和find_all极其相似

以实际例子作说明:

1、定义一个html,并使用BeautifulSoup的lxml解析

from bs4 importBeautifulSoup

html= '''

职位名称 职位类别 时间
职位一 类别一 时间1
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/639510
推荐阅读
相关标签
  

闽ICP备14008679号