赞
踩
Ps:以下内容,为个人在华为官网学习 华为云开发者学堂 时学习心得与笔记 ,分享我遇到的问题或解决办法,仅供参考使用。
1.资源:
在使用idea作为工具进行爬取时,maven依赖的网址如下:
ww dhttps://mvnrepository.com/
视频中分别采用的是:
<!-- https://mvnrepository.com/artifact/org.jsoup/jsoup --> <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.13.1</version> </dependency> <!-- https://mvnrepository.com/artifact/junit/junit --> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.12</version> <scope>test</scope> </dependency> <!-- https://mvnrepository.com/artifact/commons-io/commons-io --> <dependency> <groupId>commons-io</groupId> <artifactId>commons-io</artifactId> <version>2.4</version> </dependency> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>RELEASE</version> <scope>test</scope> </dependency>
2.tips:
idea中快速补全所定义方法的返回值的赋值对对象的快捷键为:ctrl+alt+v
3.代码:
步骤一 在新建完Maven文件后,在pom.xml文件中将依赖放入
步骤二按视频中的讲解依次尝试:
a.Jsoup解析URL:
Document doc = soup.connect(“http://example.com”).get();
//获取标题内容
String title = doc.title();
Jsoup.connect(String url)方法返回了一个org.jsoup.Connection对象。在Connection对象中可以使用get()或post()方法来执行请求,并返回一个org.jsoup.nodes.Document对象,可以通过解析Document对象来获取我们想要的元素。
b.Jsoup解析字符串:
String html = “<html><head><title>Firstparse</title></head>”
+”<body><p>Parsed HTML into a doc.</p></body></html>”;
Docyment doc = Jsoup.parse(html);
//获取标题内容
String title = doc.title();
c.Jsoup解析文件
Document doc = Jsoup.parse(new File(“E:\Project\hibuder\dome1\网易邮箱练习.html”),”UTF-8”)
//获取标题内容
String title = doc.title();
Jsoup.parse(File file,String charSetName)方法可以加载并解析一个HTML文件,并返回一个Document对象,可以通过解析Document对象来获取我们想要的元素。
视频中代码Demo1代码如下:
- package com.huawei.example0;
-
-
- import org.apache.commons.io.FileUtils;
- import org.jsoup.Jsoup;
- import org.jsoup.nodes.Document;
- import org.junit.Test;
-
- import java.io.File;
- import java.io.IOException;
-
- public class Demo1 {
- @Test
- public void testUrl() throws IOException {
- //1.解析url,拿到document对象
- Document doc = Jsoup.connect("https://example.com").get();
- //获取title标签的内容
- String title = doc.title();
- System.out.println(title);
- }
- @Test
- public void testStr() throws IOException {
- String html = FileUtils.readFileToString(new File("E:\\Project\\hibuder\\dome1\\网易邮箱练习.html"),"UTF-8");
- System.out.println(html);
- //解析字符串 拿到document对象
- Document doc = Jsoup.parse(html);
- //2.获取title标签的内容
- String title = doc.title();
- System.out.println(title);
-
- }
- @Test
- public void testFile() throws IOException {
- //1.解析文件 拿到的document对象
- Document doc = Jsoup.parse(new File("E:\\Project\\hibuder\\dome1\\网易邮箱练习.html"), "UTF-8");
- //获取title标签的内容
- String title = doc.title();
- System.out.println(title);
- }
- }
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。