赞
踩
from bs4 import BeautifulSoup
lxml 以lxml形式解析html,例:BeautifulSoup(html,'lxml') # 注:html5lib 容错率最高
find 返回找到的第一个标签
find_all 以list的形式返回找到的所有标签
limit 指定返回的标签个数
attrs 将标签属性放到一个字典中
string 获取标签下的非标签字符串(值), 返回字符串
strings 获取标签下的所有非标签字符串, 返回生成器。
stripped_strings 获取标签下的所有非标签字符串,并剔除空白字符,返回生成器。
get_text # 获取标签下的所有非标签字符串,返回字符串格式
contents、children都是返回某个标签下的直接子元素,包含字符串。 contents 返回一个列表,children 返回一个生成器
select 方法和find_all极其相似
以实际例子作说明:
1、定义一个html,并使用BeautifulSoup的lxml解析
from bs4 importBeautifulSoup
html= '''
职位名称 | 职位类别 | 时间 |
职位一 | 类别一 | 时间1 |
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。