赞
踩
一、 pyspider安装
pip install pyspider
启动之后如下:
Windows系统
Linux系统
二、pyspider例子
重点参考http://blog.csdn.net/u011659379/article/details/48223385,需要注意的是其中csspath的选取,其中的css selector 可参考网页http://www.w3schools.com/cssref/css_selectors.asp。
html bodydiv#container.ss-list div.main div.box div.content div.siteList ul li h3 a
将路径加上>即可,变成形如
html>body>div#container.ss-list>div.main>div.box>div.content>div.siteList>ul>li>h3>a
注意:有时候可能需要修改某些内容,如去掉(tbody)
例子:http://school.163.aoshu.com/school/249907/,获取学校网址。
FireFox浏览器抓取结果
html>body>div.wrapper.bgf>div.school>article.schoolintro>dl.clearfix>dd>table>tbody>tr:last-child>td:last-child
实际使用时候为:
table>tr:nth-child(6)>td:nth-child(2)
备注:
tbody可能是页面自动生成的,可以通过打开源代码查看,确定是否需要去掉!
源码没有<tbody>这个元素,而浏览器打开是有<tobdy >这个元素的。
源码如下:
浏览器查看结果,含有<tbody>这个元素。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。