赞
踩
之前一个挺稳的一条龙网站反馈挂掉了,估计凉了很久了,于是接盘。
为啥叫他一条龙,因为这个项目从抓取到处理再到分析都是自动的,下面简称一条龙
于是我带着疑问开始瞅一个没有交接文档的项目
经过百曲千折的分析观察测试,最终定位问题出在两方面
1)网站的一些元素发生了变化,出现了一个新格式展示数据,so,爬不到了
2)之前的rar解压代码采用的junrar,纯代码解压。通过查询这种方式目前已经凉了,现在网站放的五系rar都不能处理了
啰嗦了半天,归回正文
既然问题都找到了,那就按着线索找解决的办法。
先试了一种,当前使用的是
- <dependency>
- <groupId>com.github.beothorn</groupId>
- <artifactId>junrar</artifactId>
- <version>0.6</version>
- <scope>test</scope>
- </dependency>
于是换了这个新版本
- <!-- https://mvnrepository.com/artifact/com.github.junrar/junrar -->
- <dependency>
- <groupId>com.github.junrar</groupId>
- <artif
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。