赞
踩
摘要
这是一个java爬虫入门的案例,可以简单的爬取商品的名称,价格,图片路径等。引入了两个依赖,jsoup可以直接对html解析,所采用的版本是---1.15.4。而另一个依赖lombok是简化,其作用方便后续扩展等。
关键词:爬虫,jsoup,lombo
目录
- public List<Content> parseJD(String key) throws IOException {
- //1,加载url路径
- String url = "https://search.jd.com/Search?keyword="+key+"&enc=utf-8&wq=java&pvid=66f97edafd7e4bf48275bee26ed2abcd";
- //2,解析url
- Document document = Jsoup.parse(new URL(url), 5000);
- //3,获得你想要的那个元素
- Element element = document.getElementById("J_goodsList");
- //3.1,获取li下的所有内容
- Elements elements = element.getElementsByTag("li");
- //3.2list集合存储爬取的图片,价格,名称
- List<Content> goodsList = new ArrayList<>();
- for (Element li : elements) {
- String attr = li.getElementsByTag("img").eq(0).attr("data-lazy-img");
- String price = li.getElementsByClass("p-price").eq(0).text();
- String name = li.getElementsByClass("p-name").eq(0).text();
- goodsList.add(new Content(attr,price,name));
- }
- return goodsList;
- }
- @Data
- @NoArgsConstructor
- @AllArgsConstructor
- public class Content {
- private String attr;
- private String price;
- private String name;
- }
- <!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
- <dependency>
- <groupId>org.jsoup</groupId>
- <artifactId>jsoup</artifactId>
- <version>1.15.4</version>
- </dependency>
-
- <!-- https://mvnrepository.com/artifact/org.projectlombok/lombok -->
- <dependency>
- <groupId>org.projectlombok</groupId>
- <artifactId>lombok</artifactId>
- <version>1.18.24</version>
- <scope>provided</scope>
- </dependency>
本次使用Jsoup解析网页,对网页中的标签进行一步一步解析查找,获取想要的信息,在使用实体类进行扩展,但没有实现将其以文件形式持久化保存,和没有页面进行绑定简化操作,还有很多后续的优化。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。