当前位置:   article > 正文

python正则表达式爬取网页数据_常用正则表达式爬取网页信息及HTML分析总结

正则表达式提取网页数据

Python爬取网页信息时,经常使用的正则表达式及方法。

1.获取

标签之间内容2.获取 超链接之间内容3.获取URL最后一个参数命名图片或传递参数4.爬取网页中所有URL链接5.爬取网页标题title两种方法6.定位table位置并爬取属性-属性值7.过滤 等标签8.获取等标签内容

1). 获取

标签之间内容

开始标签如:

、、 、
...

后缀标签如:、、、、

、...

核心代码:

res_tr = r'

'

m_tr = re.findall(res_tr,language,re.S|re.M)

# eg_v1

import re

language = '''

床前明月光忧思独伤心

# 正则表达式获取

之间内容

res_tr = r"

"

m_tr = re.findall(res_tr,language,re.S|re.M)

print (unicode(m_tr,"utf-8"))

for line in m_tr:

print line

res_th = r"

(.*?)"

m_th = re.findall(res_th,line,re.S|re.M)

for mm in m_th:

print (unicode(mm,"utf-8"))

res_td = r"

(.*?)"

m_td = re.findall(res_td,line,re.S|re.M)

for nn in m_td:

print (unicode(nn,"utf-8"))

2). 获取超链接之间内容

在使用正则表达式时,需要分析网页链接,获取URL或网页内容。核心代码如下:

res = r'(.*?)'

mm = re.findall(res, content, re.S|re.M)

urls=re.findall(r"", content, re.I|re.S|re.M)

# eg_v2

import re

content = '''

浙江省主题介绍

贵州省主题介绍

'''

# 获取之间的内容

res = r'(.*?)'

mm = re.findall(res,content,re.S|re.M)

for

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Li_阴宅/article/detail/763080
推荐阅读
相关标签
  

闽ICP备14008679号