赞
踩
'''
主要用到request库(自己在cmd下进入python的pip目录,用pip install request命令安装),还有正则表达式的使用,最后把信息写入文件
- from selenium import webdriver
- import re,requests
- #打开浏览器
- user_agent='Mozilia(compatible;MSIE5.5;Windows NT)'
- headers={'User-Agent':user_agent}
- for i in range(10):
- #页数改变
- url='http://maoyan.com/board/4?offset='+str(i*10)
-
- #获取网页内容,找出符合正则表达式条件的内容
- f=requests.get(url)
- html=f.text
- pic_url=re.findall('<dd>.*?board-index.*?>(.*?)</i>.*?src="(.*?)".*?<p class="name"><a.*?>(.*?)</a>.*?star.*?>(.*?)</p>.*?releasetime.*?>(.*?)</p>.*?integer.*?>(.*?)</i>.*?fraction.*?>(.*?)</i>.*?</dd>',html,re.S)
- #两个正则表达式不用任何符号相连,或者可以认为是.*?来连接。多个字符串输出时是列表的形式item[i]
- #法一输出:列表形式[(.....)]---->print(pic_url)
- #法二输出:输出多个变量值----->item[i],并写入文件保存
- file=open('maoyandy.txt','ab')
- for item in pic_url:
- print("排名:%s\n\tURL:%s\n\t片名:%s%s%s\n\t得分:%s%s\n"%(item[0],item[1],item[2],item[3],item[4],item[5],item[6]))
- for i in range(7):
- file.write(item[i].encode('utf-8'))
- else:
- print('抓取成功')
-
- '''
- 排名:1
- URL://ms0.meituan.net/mywww/image/loading_2.e3d934bf.png
- 片名:霸王别姬
- 主演:张国荣,张丰毅,巩俐
- 上映时间:1993-01-01(中国香港)
- 得分:9.6
- '''
-

Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。