赞
踩
SpringBoot用法:爬虫框架集成
以抓取“今日头条”新闻举例说明
1. 集成爬虫框架webmagic(更多了解webmagic,可以去官方地址)
- <dependency>
- <groupId>us.codecraft</groupId>
- <artifactId>webmagic-extension</artifactId>
- <version>0.6.0</version>
- </dependency>
WebMagic是一个简单灵活的Java爬虫框架。基于WebMagic,你可以快速开发出一个高效、易维护的爬虫程序
特性:
- 简单的API,可快速上手
- 模块化的结构,可轻松扩展
- 提供多线程和分布式支持
1. 项目目录结构
2. pom.xml依赖组件
- <?xml version="1.0" encoding="UTF-8"?>
- <project xmlns="http://maven.apache.org/POM/4.0.0"
- xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
- xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
- <modelVersion>4.0.0</modelVersion>
-
- <parent>
- <groupId>com.md</groupId>
- <artifactId>spring-boot2-parent</artifactId>
- <version>0.0.1-SNAPSHOT</version>
- <relativePath>../pom.xml</relativePath>
- </parent>
-
- <artifactId>spring-boot2-crawler</artifactId>
- <packaging>jar</packaging>
-
- <name>spring-boot2-crawler</name>
- <description>Spring Boot, MVC, Rest API for App</description>
-
- <properties>
- <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
- <java.version>1.8</java.version>
- </properties>
-
- <dependencies>
- <dependency>
- <groupId>org.springframework.boot</groupId>
- <artifactId>spring-boot-starter</artifactId>
- </dependency>
- <!-- 构建成可运行的Web项目 -->
- <dependency>
- <groupId>org.springframework.boot</groupId>
- <artifactId>spring-boot-starter-web</artifactId>
- </dependency>
- <dependency>
- <groupId>net.sf.json-lib</groupId>
- <artifactId>json-lib-ext-spring</artifactId>
- </dependency>
- <dependency>
- <groupId>org.projectlombok</groupId>
- <artifactId>lombok</artifactId>
- <optional>true</optional>
- </dependency>
- <!-- webmagic 爬虫工具类 -->
- <dependency>
- <groupId>us.codecraft</groupId>
- <artifactId>webmagic-extension</artifactId>
- <version>0.6.0</version>
- </dependency>
- <dependency>
- <groupId>org.nlpcn</groupId>
- <artifactId>nlp-lang</artifactId>
- <version>1.7</version>
- </dependency>
- </dependencies>
-
- <build>
- <plugins>
- <plugin>
- <groupId>org.springframework.boot</groupId>
- <artifactId>spring-boot-maven-plugin</artifactId>
- </plugin>
- </plugins>
- </build>
-
- </project>

3. 爬虫核心解析类
MyPageProcessor:
- package com.md.demo.crawler.test;
-
- import java.util.List;
-
- import org.nlpcn.commons.lang.finger.SimHashService;
-
- import lombok.extern.slf4j.Slf4j;
- import us.codecraft.webmagic.Page;
- import us.codecraft.webmagic.Site;
- import us.codecraft.webmagic.Spider;
- import us.codecraft.webmagic.processor.PageProcessor;
- import us.codecraft.webmagic.selector.JsonPathSelector;
-
- /**
- * 官方地址:http://webmagic.io/
- *
- * WebMagic是一个简单灵活的Java爬虫框架。基于WebMagic,你可以快速开发出一个高效、易维护的爬虫。
- *
- * @author Minbo
- *
- */
- @Slf4j
- public class MyPageProcessor implements PageProcessor {
-
- private Site site = Site.me();
-
- @Override
- public void process(Page page) {
- // 这里使用了jsonPath,因为今日头条返回的是json数据格式。如果是html内容,则使用xpath
-
- // 第一层解析
- String json = page.getRawText();
- List<String> data = new JsonPathSelector("$.data").selectList(json);
- // 第二层解析
- for (int i = 0; i < data.size(); i++) {
- String result = data.get(i);
- // 文章ID
- String item_id = new JsonPathSelector("$.item_id").select(result);
- // 文章标题
- String title = new JsonPathSelector("$.title").select(result);
- // 是否有图
- String has_image = new JsonPathSelector("$.has_image").select(result);
- // 文章来源
- String source = new JsonPathSelector("$.source").select(result);
- // 文章时间
- String datetime = new JsonPathSelector("$.datetime").select(result);
- // 一般是根据文章详细内容生成内容指纹id,实现文章去重,这里只是举例说明拿了文章标题
- // 更多阅读我的博客文章:https://blog.csdn.net/hemin1003/article/details/82819489(【应用算法】信息流-推荐系统的去重策略)
- String fPrintId = String.valueOf(new SimHashService().fingerprint(title));
-
- log.info("");
- log.info("---------->>> 提取文章主信息:");
- log.info("文章ID item_id=" + item_id);
- log.info("文章标题 title=" + title);
- log.info("是否有图 has_image=" + has_image);
- log.info("文章来源 source=" + source);
- log.info("文章时间 datetime=" + datetime);
- log.info("内容指纹id fPrintId=" + fPrintId);
-
- // webmagic官方还有很多案例,更多内容自行参考学习了,例如配置代理,自带url去重、网页去重等功能
- // 官方文档地址:http://webmagic.io/docs/zh/
- }
- }
-
- public Site getSite() {
- return MySite.getSit(site);
- }
-
- public static void main(String[] args) {
- // 今日头条/热点数据url
- Spider.create(new MyPageProcessor()).addUrl(
- "https://m.toutiao.com/list/?tag=news_hot&ac=wap&count=20&format=json_raw&as=A1551E75BC4CF9C&cp=5E5C3CEFB9DCAE1&max_behot_time=1583123351&_signature=CXZIuwAAVy.txcPhjSEcTwl2SK&i=1583123351")
- .thread(1).run();
- }
- }

MySite:
- package com.md.demo.crawler.test;
-
- import us.codecraft.webmagic.Site;
-
- /**
- * 模拟请求头设置
- *
- * @author Minbo
- *
- */
- public class MySite {
-
- // 设置请求头
- public static Site getSit(Site site) {
- site.addHeader("Accept", "*/*");
- site.addHeader("Accept-Encoding", "gzip, deflate, br");
- site.addHeader("Accept-Language", "en-US,en;q=0.9,zh-CN;q=0.8,zh;q=0.7,zh-TW;q=0.6,cy;q=0.5");
- site.addHeader("Connection", "keep-alive");
- site.addHeader("Cookie",
- "uuid=\"w:6eeae48e765542f8816b14bd1a8803f2\"; tt_webid=6799537520192783879; csrftoken=3eb88bcad1818058de0e3c0ca8a3f6d1; W2atIF=1; _ga=GA1.2.2115719807.1583140719; _gid=GA1.2.359266539.1583140719; __tasessionId=tr7vk2kgh1583140721519");
- site.addHeader("Host", "m.toutiao.com");
- site.addHeader("Referer", "https://m.toutiao.com/?w2atif=1&channel=news_hot");
- site.addHeader("Sec-Fetch-Dest", "empty");
- site.addHeader("Sec-Fetch-Mode", "cors");
- site.addHeader("Sec-Fetch-Site", "same-origin");
- site.addHeader("Upgrade-Insecure-Requests", "1");
- site.addHeader("User-Agent",
- "Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1");
-
- site.setTimeOut(60000);
- site.setCharset("UTF-8");
- site.setRetryTimes(2);
- return site;
- }
- }

4. 文章去重工具类
TestNlp:
- package com.md.demo.nlp.test;
-
- import org.nlpcn.commons.lang.finger.FingerprintService;
- import org.nlpcn.commons.lang.finger.SimHashService;
-
- /**
- * 指纹去重库Github地址:https://github.com/hemin1003/nlp-lang
- *
- * 更多阅读:https://blog.csdn.net/hemin1003/article/details/82819489(【应用算法】信息流-推荐系统的去重策略)
- *
- * @author Minbo
- */
- public class TestNlp {
-
- /**
- * 任何一段信息文字,都可以对应一个不太长的随机数,作为区别它和其它信息的指纹(Fingerprint)。
- * 只要算法设计的好,任何两段信息的指纹都很难重复,就如同人类的指纹一样。信息指纹在加密、信息压缩和处理中有着广泛的应用。
- * 这里的做法是文章抽取特征词,压缩为md5指纹。利用这些指纹进行hash去重。广泛应用在搜索结果、推荐结果去重。
- */
- public static void main(String[] args) {
-
- String content = "卓尔防线继续伤筋动骨 队长梅方出场再补漏说起来卓尔队长梅方本赛季就是个“补漏”的命!在中卫与右边后卫间不停地轮换。如果不出意外,今天与广州恒大一战梅方又要换位置,这也是汉军队长连续三场比赛中的第三次换位。而从梅方的身上也可以看出,本赛季汉军防线如此“折腾”,丢球多也不奇怪了。梅方自2009赛季中乙出道便一直司职中后卫,还曾入选过布拉泽维奇国奥队,也是司职的中卫。上赛季,梅方与忻峰搭档双中卫帮助武汉卓尔队中超成功,但谁知进入本赛季后从第一场比赛开始梅方便不断因为种种“意外”而居无定所。联赛首战江苏舜天时,也是由于登贝莱受伤,朱挺位置前移,梅方临危受命客串右边后卫。第二轮主场与北京国安之战梅方仅仅打了一场中卫,又因为柯钊受罚停赛4轮而不得不再次到边路“补漏”。随着马丁诺维奇被弃用,梅方一度成为中卫首选,在与上海东亚队比赛中,邱添一停赛,梅方与忻峰再度携手,紧接着与申鑫队比赛中移至边路,本轮忻峰又停赛,梅方和邱添一成为中卫线上最后的选择。至于左右边后卫位置,卓尔队方面人选较多,罗毅、周恒、刘尚坤等人均可出战。记者马万勇原标题:卓尔防线继续伤筋动骨队长梅方出场再补漏稿源:中新网作者:";
- String content2 = "在中卫与右边后卫间不停地轮换。卓尔防线继续伤筋动骨 队长梅方出场再补漏说起来卓尔队长梅方本赛季就是个“补漏”的命!还曾入选过布拉泽维奇国奥队,也是司职的中卫。上赛季,梅方与忻峰搭档双中卫帮助武汉卓尔队中超成功,但谁知进入本赛季后从第一场比赛开始梅方便不断因为种种“意外”而居无定所。";
-
- // 方式1
- // String f1 = new FingerprintService().fingerprint(content);
- // String f2 = new FingerprintService().fingerprint(content2);
- // System.out.println(f1);
- // System.out.println(f2);
- // System.out.println(f1.equals(f2));
-
- // 方式2
- SimHashService service = new SimHashService();
- String f3 = String.valueOf(service.fingerprint(content));
- String f4 = String.valueOf(service.fingerprint(content2));
- System.out.println(f3);
- System.out.println(f4);
- System.out.println(f3.equals(f4));
-
- // System.out.println(service.hmDistance(content, content2));
- }
-
- }

更多阅读:【应用算法】信息流-推荐系统的去重策略
5. 计划任务
ScheduledTasks:
- package com.md.demo.task;
-
- import org.springframework.scheduling.annotation.Scheduled;
- import org.springframework.stereotype.Component;
-
- import com.md.demo.crawler.test.MyPageProcessor;
-
- import lombok.extern.slf4j.Slf4j;
- import us.codecraft.webmagic.Spider;
-
- @Component
- @Slf4j
- public class ScheduledTasks {
-
- /**
- * 每30秒执行一次
- */
- @Scheduled(initialDelay = 5000, fixedDelay = 30000)
- public void httTaskOfWechatPay() {
- log.info("------------------------------------------------");
- log.info("============爬虫数据任务,start===================");
-
- // TODO 在这里,你可以把爬虫做成执行计划任务,或者动态执行计划(通过db配置,或quartz框架,或XXL-job任务调度计划框架)
-
- log.info("开始爬虫数据...");
- log.info("处理处理...可以入库db,或存入es中");
-
- // 爬今日头条/热点数据url
- Spider.create(new MyPageProcessor()).addUrl(
- "https://m.toutiao.com/list/?tag=news_hot&ac=wap&count=20&format=json_raw&as=A1551E75BC4CF9C&cp=5E5C3CEFB9DCAE1&max_behot_time=1583123351&_signature=CXZIuwAAVy.txcPhjSEcTwl2SK&i=1583123351")
- .thread(1).run();
-
- log.info("爬虫结束...done");
-
- log.info("============爬虫数据任务,end===================");
- log.info("------------------------------------------------");
- }
-
- }

注:可以改写成多线程模式,并发抓取多个tag分类的新闻数据,但频率不要很高,不然容易命中爬虫IP反作弊(可以加上ip代理)
6. 启动类
Application:
- package com.md.demo;
-
- import org.springframework.boot.SpringApplication;
- import org.springframework.boot.autoconfigure.SpringBootApplication;
- import org.springframework.context.annotation.Bean;
- import org.springframework.scheduling.annotation.EnableScheduling;
- import org.springframework.web.cors.CorsConfiguration;
- import org.springframework.web.cors.UrlBasedCorsConfigurationSource;
- import org.springframework.web.filter.CorsFilter;
-
- /**
- * 程序主入口
- *
- * @author Minbo
- *
- */
- @SpringBootApplication
- @EnableScheduling
- public class Application {
-
- public static void main(String[] args) {
- SpringApplication.run(Application.class, args);
- }
-
- /**
- * 开启过滤器功能
- *
- * @return
- */
- private CorsConfiguration buildConfig() {
- CorsConfiguration corsConfiguration = new CorsConfiguration();
- corsConfiguration.addAllowedOrigin("*");
- corsConfiguration.addAllowedHeader("*");
- corsConfiguration.addAllowedMethod("*");
- return corsConfiguration;
- }
-
- /**
- * 跨域过滤器
- *
- * @return
- */
- @Bean
- public CorsFilter corsFilter() {
- UrlBasedCorsConfigurationSource source = new UrlBasedCorsConfigurationSource();
- source.registerCorsConfiguration("/**", buildConfig());
- return new CorsFilter(source);
- }
- }

SpringBoot从入门到精通教程(三十二)- MybatisPlus框架动态数据源用法(支持多个DB,动态切换数据源)
至此,全部介绍就结束了
-------------------------------
-------------------------------
关于我(个人域名)
期望和大家一起学习,一起成长,共勉,O(∩_∩)O谢谢
欢迎交流问题,可加个人QQ 469580884,
或者,加我的群号 751925591,一起探讨交流问题
不讲虚的,只做实干家
Talk is cheap,show me the code
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。