当前位置:   article > 正文

华为云开发者学堂——学习笔记_华为开发者学堂课程材料咋下载

华为开发者学堂课程材料咋下载

Java学习路径——Java爬虫实战(1.3Jsoup爬虫技术栈)

Ps:以下内容,为个人在华为官网学习 华为云开发者学堂 时学习心得与笔记 ,分享我遇到的问题或解决办法,仅供参考使用。

1.资源:

在使用idea作为工具进行爬取时,maven依赖的网址如下:

 ww dhttps://mvnrepository.com/

视频中分别采用的是:

<!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.13.1</version>
</dependency>
<!-- https://mvnrepository.com/artifact/junit/junit -->
<dependency>
    <groupId>junit</groupId>
    <artifactId>junit</artifactId>
    <version>4.12</version>
    <scope>test</scope>
</dependency>
<!-- https://mvnrepository.com/artifact/commons-io/commons-io -->
<dependency>
    <groupId>commons-io</groupId>
    <artifactId>commons-io</artifactId>
    <version>2.4</version>
</dependency>
<dependency>
    <groupId>junit</groupId>
    <artifactId>junit</artifactId>
    <version>RELEASE</version>
    <scope>test</scope>
</dependency>

2.tips:

idea中快速补全所定义方法的返回值的赋值对对象的快捷键为:ctrl+alt+v

3.代码:

步骤一 在新建完Maven文件后,在pom.xml文件中将依赖放入

步骤二按视频中的讲解依次尝试:

a.Jsoup解析URL:

Document doc = soup.connect(“http://example.com”).get();

//获取标题内容

String title = doc.title();

Jsoup.connect(String url)方法返回了一个org.jsoup.Connection对象。在Connection对象中可以使用get()或post()方法来执行请求,并返回一个org.jsoup.nodes.Document对象,可以通过解析Document对象来获取我们想要的元素。

b.Jsoup解析字符串:

String html = “<html><head><title>Firstparse</title></head>”

                     +”<body><p>Parsed HTML into a doc.</p></body></html>”;

Docyment doc = Jsoup.parse(html);

//获取标题内容

String title = doc.title();

c.Jsoup解析文件

Document doc = Jsoup.parse(new File(“E:\Project\hibuder\dome1\网易邮箱练习.html”),”UTF-8”)

//获取标题内容

String title = doc.title();

Jsoup.parse(File file,String charSetName)方法可以加载并解析一个HTML文件,并返回一个Document对象,可以通过解析Document对象来获取我们想要的元素。

视频中代码Demo1代码如下:

  1. package com.huawei.example0;
  2. import org.apache.commons.io.FileUtils;
  3. import org.jsoup.Jsoup;
  4. import org.jsoup.nodes.Document;
  5. import org.junit.Test;
  6. import java.io.File;
  7. import java.io.IOException;
  8. public class Demo1 {
  9. @Test
  10. public void testUrl() throws IOException {
  11. //1.解析url,拿到document对象
  12. Document doc = Jsoup.connect("https://example.com").get();
  13. //获取title标签的内容
  14. String title = doc.title();
  15. System.out.println(title);
  16. }
  17. @Test
  18. public void testStr() throws IOException {
  19. String html = FileUtils.readFileToString(new File("E:\\Project\\hibuder\\dome1\\网易邮箱练习.html"),"UTF-8");
  20. System.out.println(html);
  21. //解析字符串 拿到document对象
  22. Document doc = Jsoup.parse(html);
  23. //2.获取title标签的内容
  24. String title = doc.title();
  25. System.out.println(title);
  26. }
  27. @Test
  28. public void testFile() throws IOException {
  29. //1.解析文件 拿到的document对象
  30. Document doc = Jsoup.parse(new File("E:\\Project\\hibuder\\dome1\\网易邮箱练习.html"), "UTF-8");
  31. //获取title标签的内容
  32. String title = doc.title();
  33. System.out.println(title);
  34. }
  35. }

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/432325
推荐阅读
相关标签
  

闽ICP备14008679号