当前位置:   article > 正文

2024年最全Golang爬虫入门指南_golang mini-spider详解 goodcoder(2),设计思想解读开源框架

2024年最全Golang爬虫入门指南_golang mini-spider详解 goodcoder(2),设计思想解读开源框架

img
img

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化的资料的朋友,可以添加戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

"net/http"
"golang.org/x/net/html"
  • 1
  • 2

)

func main() {
resp, err := http.Get(“https://www.example.com”)
if err != nil {
fmt.Println(“请求发送失败:”, err)
return
}
defer resp.Body.Close()

doc, err := html.Parse(resp.Body)
if err != nil {
	fmt.Println("解析HTML失败:", err)
	return
}

// 在这里进行HTML解析操作...
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

}


上面的代码中,我们使用`html.Parse`函数来解析HTML,并得到一个表示整个HTML文档的树状结构。在这个树状结构中,我们可以使用不同的方法来查找和提取我们需要的数据。



  • 1
  • 2
  • 3
  • 4
  • 5

package main

import (
“fmt”
“net/http”
“golang.org/x/net/html”
)

func main() {
resp, err := http.Get(“https://www.example.com”)
if err != nil {
fmt.Println(“请求发送失败:”, err)
return
}
defer resp.Body.Close()

doc, err := html.Parse(resp.Body)
if err != nil {
	fmt.Println("解析HTML失败:", err)
	return
}

findLinks(doc)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

}

func findLinks(n *html.Node) {
if n.Type == html.ElementNode && n.Data == “a” {
for _, a := range n.Attr {
if a.Key == “href” {
fmt.Println(a.Val)
}
}
}

for c := n.FirstChild; c != nil; c = c.NextSibling {
	findLinks(c)
}
  • 1
  • 2
  • 3

}


上面的代码中,我们定义了一个递归函数`findLinks`来查找HTML中的所有链接。我们使用`html.Node`的`Type`和`Data`属性来判断当前节点是否为`<a>`标签,并使用`Attr`属性来获取链接的地址。


### 四、并发爬虫


并发是Golang的一个重要特性,能够提高爬虫的效率。我们可以使用Golang的并发机制来同时发送多个HTTP请求,加快网页的爬取速度。



  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

package main

import (
“fmt”
“net/http”
“golang.org/x/net/html”
)

func main() {
urls := []string{
“https://www.example.com/page1”,
“https://www.example.com/page2”,
“https://www.example.com/page3”,
}

ch := make(chan string)

for \_, url := range urls {
	go fetch(url, ch)
}

for range urls {
	fmt.Println(<-ch)
}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9

}

func fetch(url string, ch chan<- string) {
resp, err := http.Get(url)
if err != nil {
ch <- fmt.Sprintf(“请求 %s 发送失败:%v”, url, err)
return
}
defer resp.Body.Close()

doc, err := html.Parse(resp.Body)
if err != nil {
	ch <- fmt.Sprintf("解析 %s 失败:%v", url, err)
	return
}

// 在这里进行HTML解析操作...

ch <- fmt.Sprintf("请求 %s 完成", url)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9

}


上面的代码中,我们定义了一个`ch`通道用于接收爬虫的结果。然后,我们使用`go`关键字来开启多个协程,每个协程负责爬取一个网页的内容并进行解析。最后,我们使用`<-ch`来从通道中获取结果并打印出来。


### 五、数据存储


爬取到的数据通常需要保存到数据库或者文件中。Golang提供了各种数据库驱动和文件操作函数,可以方便地进行数据存储。



  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

package main

import (
“fmt”
“net/http”
“golang.org/x/net/html”
“os”
“io”
)

func main() {
resp, err := http.Get(“https://www.example.com”)
if err != nil {
fmt.Println(“请求发送失败:”, err)
return
}
defer resp.Body.Close()

file, err := os.Create("output.html")
if err != nil {
	fmt.Println("创建文件失败:", err)
	return
}
defer file.Close()

\_, err = io.Copy(file, resp.Body)
if err != nil {
	fmt.Println("保存文件失败:", err)
	return
}

fmt.Println("文件保存成功")
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14

}


上面的代码中,我们使用`os.Create`函数创建了一个名为`output.html`的文件,并使用`io.Copy`函数将HTTP响应的内容保存到文件中。


### 六、案例


#### 案例一:爬取网页标题



  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

package main

import (
“fmt”
“net/http”
“golang.org/x/net/html”
)

func main() {
resp, err := http.Get(“https://www.example.com”)
if err != nil {
fmt.Println(“请求发送失败:”, err)
return
}
defer resp.Body.Close()

doc, err := html.Parse(resp.Body)
if err != nil {
	fmt.Println("解析HTML失败:", err)
	return
}

title := findTitle(doc)
fmt.Println("网页标题:", title)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

}

func findTitle(n *html.Node) string {
if n.Type == html.ElementNode && n.Data == “title” {
return n.FirstChild.Data
}

for c := n.FirstChild; c != nil; c = c.NextSibling {
	title := findTitle(c)
	if title != "" {
		return title
	}
}

return ""
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

}


在上面的例子中,我们使用`findTitle`函数来查找网页的标题。我们通过递归遍历HTML树,如果遇到`<title>`标签,我们就返回其内容。


#### 案例二:爬取图片链接



  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

package main

import (
“fmt”
“net/http”
“golang.org/x/net/html”
)

func main() {
resp, err := http.Get(“https://www.example.com”)

img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上Go语言开发知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

如果你需要这些资料,可以戳这里获取

715400418985)]
[外链图片转存中…(img-7gS2z1d8-1715400418986)]

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上Go语言开发知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

如果你需要这些资料,可以戳这里获取

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/很楠不爱3/article/detail/607753
推荐阅读
相关标签
  

闽ICP备14008679号