学习爬虫心得体会_对爬虫技术以及文本挖掘的的学习领会

作者：2023面试高手 | 2024-06-14 04:03:14

踩

对爬虫技术以及文本挖掘的的学习领会

什么是爬虫：使用编程语言所编写的一个用于爬取Web或Appd数据的应用程序。

爬虫按照系统结构和实现技术，大致可以分为以下几种类型：通用网络爬虫（General Purpose Web Crawler）、聚焦网络爬虫（Focused Web Crawler）、增量式网络爬虫（Incremental Web Crawler）、深层网络爬虫（Deep Web Crawler）。实际的网络爬虫系统通常是几种爬虫技术相结合实现的。

怎么爬取数据：
1、找到要爬取的目标网站、发起请求
2、分析URL是如何变化的和提取有用的URL
3、提取有用的数据
爬虫的基本流程：获取网页、解析网页、提取数据、保存数据。

爬虫基础

一、HTTP与HTTPS
●HTTP协议（全称是HyperText Transfer Plrotocal ），中文意思是超文本传输协议，是一种发布和接收HT ML (HyperText Markuup Language) 页面的方法。服务器端口号为80端口。
●HTTPS协议(全称是Hyper Text Transfer Protocol over SecureSocket Layer)，是HTTP协议的加密版本，在HTTP 下加入了SSL层，服务器端口号是443。

二、URL与URI
●URL(网址)是Uriform Resource Locator的简写，统一资源定位符。一个URL由以下几部分组成：

以东方财富网为例：

声明：本文内容由网友自发贡献，转载请注明出处：【wpsshop博客】