当前位置:   article > 正文

java爬虫框架——jsoup的简单使用(爬取电影天堂的所有电影的信息,包括下载的链接)_java解析视频详情页获取视频地址

java解析视频详情页获取视频地址

                                java爬虫——jsoup

一:所需知识

1.io操作

2.简单学习框架jsoup

3.多线程

二:java文件介绍

1.Main.java --------------------程序入口

2.JsoupDemo.java-------------------爬虫的逻辑部分

3.Movies.java--------------------javaBean类

4.MoviesDao.java----------------有关数据库的操作

5.Bt_picture.java------------------电影图片下载到本机


三:程序流程

1.通过链接分析,发现http://www.bttiantangs.com/list/dianying/index_2.html中的2代表页码,该首页一共有500页

2.每当爬取一页时,从电影标题中获取下一页的链接


3.解析电影详情页中你所需要的信息。

四:程序代码

Main.java:

  1. import java.util.List;
  2. public class Main {
  3. public static void main(String [] args) throws Exception{
  4. int k=0;                     //用来计数
  5. MoviesDao md=new MoviesDao();//用来对获取到的数据插入数据库
  6. Bt_picture p=new Bt_picture();//用来下载图片
  7. for(int i=2;i<50;i++){        //爬取地址的总数
  8. String url="http://www.bttiantangs.com/list/dianying/index_"+i+".html";//爬取的地址
  9. JsoupDemo jsoup=new JsoupDemo();
  10. //获取某一页的所有电影详情页下的连接
  11. List<String> href=jsoup.link(url);
  12. List <Movies> m=jsoup.get(href);
  13. for(Movies e:m){
  14. k++;
  15. //插入数据库
  16. p.download(e);
  17. md.insert(e.getTitle(), e.getYear(), e.getContry(), e.getLan(), e.getDouban_link(), e.getIntroduce(), e.getMain_actor(), e.getDownload_url(), e.getImg_url());
  18. System.out.println(k);
  19. }
  20. }
  21. }
  22. }

JsoupDemo.java

jsoup的使用都在这

  1. package jsoup;
  2. import java.io.IOException;
  3. import java.util.ArrayList;
  4. import java.util.List;
  5. import org.jsoup.Connection;
  6. import org
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/很楠不爱3/article/detail/173859
推荐阅读
相关标签
  

闽ICP备14008679号