赞
踩
Python爬取HTML网页中的div标签所有内容,
首先定义word对象,将word复制div所抓取的内容
我们可以先预定正则表达式
re.compile()
代表换行
re.S
通过迭代器查找指定内容
obj.finditer(word)
注意在代码中(?P.?) 代表意思:通过?P将 .?值传给,在后面的循环中将值打印出来
import re word = """<div id='a1'>java</div> <div id='a2'>python</div> <div id='a3'>nodejs</div> """ # re.S换行,?P<a2>替换需要输出的内容 obj = re.compile(r"<div id='.*?>(?P<a2>.*?)</div>", re.S) result = obj.finditer(word) for i in result: print(i.group("a2"))
输出结果:
C:\Programs\Python\vis\Scripts\python.exe D:/pythonTest/test01/指定查找.py
java
python
nodejs
Process finished with exit code 0
免费源码获得:关注微信公众号:ancenok,然后回复:021
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。