赞
踩
1.io操作
2.简单学习框架jsoup
3.多线程
1.Main.java --------------------程序入口
2.JsoupDemo.java-------------------爬虫的逻辑部分
3.Movies.java--------------------javaBean类
4.MoviesDao.java----------------有关数据库的操作
5.Bt_picture.java------------------电影图片下载到本机
1.通过链接分析,发现http://www.bttiantangs.com/list/dianying/index_2.html中的2代表页码,该首页一共有500页
2.每当爬取一页时,从电影标题中获取下一页的链接
3.解析电影详情页中你所需要的信息。
Main.java:
- import java.util.List;
-
- public class Main {
-
- public static void main(String [] args) throws Exception{
- int k=0; //用来计数
- MoviesDao md=new MoviesDao();//用来对获取到的数据插入数据库
- Bt_picture p=new Bt_picture();//用来下载图片
- for(int i=2;i<50;i++){ //爬取地址的总数
- String url="http://www.bttiantangs.com/list/dianying/index_"+i+".html";//爬取的地址
- JsoupDemo jsoup=new JsoupDemo();
- //获取某一页的所有电影详情页下的连接
- List<String> href=jsoup.link(url);
- List <Movies> m=jsoup.get(href);
- for(Movies e:m){
- k++;
- //插入数据库
- p.download(e);
- md.insert(e.getTitle(), e.getYear(), e.getContry(), e.getLan(), e.getDouban_link(), e.getIntroduce(), e.getMain_actor(), e.getDownload_url(), e.getImg_url());
- System.out.println(k);
- }
-
- }
-
- }
- }
JsoupDemo.java
jsoup的使用都在这
- package jsoup;
-
- import java.io.IOException;
- import java.util.ArrayList;
- import java.util.List;
-
- import org.jsoup.Connection;
- import org
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。