赞
踩
6.然后写name和你自己的url
7.然后修改modules,只需要修改select writes和select post processors
对学院网站进行抓取、建索、排序、搜索、摘要显示。是Web界面。
首先利用httpclient+多线程去模拟客户端去进行获取网页的内容,然后采用jsoup+多线程来进行解析网页内容并存储本地
Httplcient、Jsoup、多线程、Lucene、、IKAnanyzer数据库dao模式、Javascript /jQuery
Bootstrip、和web网页技术等实现
这是从网页抓取数据,数据量比较大、一般建议从第一天晚上开始爬取!也可以在代码中加入其它的过滤条件、让爬取的文件小一点、最后保存在本地运行程序main方法建立索引
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。