python正则表达式爬取网页数据_常用正则表达式爬取网页信息及HTML分析总结

作者：Li_阴宅 | 2024-06-27 16:47:27

踩

正则表达式提取网页数据

Python爬取网页信息时，经常使用的正则表达式及方法。

1.获取

标签之间内容2.获取超链接之间内容3.获取URL最后一个参数命名图片或传递参数4.爬取网页中所有URL链接5.爬取网页标题title两种方法6.定位table位置并爬取属性-属性值7.过滤等标签8.获取等标签内容

1). 获取

标签之间内容

开始标签如：

、、、

...

后缀标签如：、、、、

、...

核心代码：

res_tr = r'

m_tr = re.findall(res_tr,language,re.S|re.M)

# eg_v1

import re

language = '''

床前明月光忧思独伤心

# 正则表达式获取

之间内容

res_tr = r"

m_tr = re.findall(res_tr,language,re.S|re.M)

print (unicode(m_tr,"utf-8"))

for line in m_tr:

print line

res_th = r"

(.*?)"

m_th = re.findall(res_th,line,re.S|re.M)

for mm in m_th:

print (unicode(mm,"utf-8"))

res_td = r"

(.*?)"

m_td = re.findall(res_td,line,re.S|re.M)

for nn in m_td:

print (unicode(nn,"utf-8"))

2). 获取超链接之间内容

在使用正则表达式时，需要分析网页链接，获取URL或网页内容。核心代码如下：

res = r'(.*?)'

mm = re.findall(res, content, re.S|re.M)

urls=re.findall(r"", content, re.I|re.S|re.M)

# eg_v2

import re

content = '''

浙江省主题介绍

贵州省主题介绍

'''

# 获取之间的内容

res = r'(.*?)'

mm = re.findall(res,content,re.S|re.M)

for

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Li_阴宅/article/detail/763080