赞
踩
Python爬取网页信息时,经常使用的正则表达式及方法。
1.获取
标签之间内容2.获取 超链接之间内容3.获取URL最后一个参数命名图片或传递参数4.爬取网页中所有URL链接5.爬取网页标题title两种方法6.定位table位置并爬取属性-属性值7.过滤 等标签8.获取等标签内容1). 获取
标签之间内容开始标签如:
、、 、后缀标签如:、、、、
核心代码:
res_tr = r'
'm_tr = re.findall(res_tr,language,re.S|re.M)
# eg_v1
import re
language = '''
床前明月光忧思独伤心# 正则表达式获取
之间内容res_tr = r"
"m_tr = re.findall(res_tr,language,re.S|re.M)
print (unicode(m_tr,"utf-8"))
for line in m_tr:
print line
res_th = r"
(.*?)"m_th = re.findall(res_th,line,re.S|re.M)
for mm in m_th:
print (unicode(mm,"utf-8"))
res_td = r"
(.*?)"m_td = re.findall(res_td,line,re.S|re.M)
for nn in m_td:
print (unicode(nn,"utf-8"))
在使用正则表达式时,需要分析网页链接,获取URL或网页内容。核心代码如下:
res = r'(.*?)'
mm = re.findall(res, content, re.S|re.M)
urls=re.findall(r"", content, re.I|re.S|re.M)
# eg_v2
import re
content = '''
'''
res = r'(.*?)'
mm = re.findall(res,content,re.S|re.M)
for
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。