当前位置:   article > 正文

【Python爬虫基础教程 | 第一篇】URL、HTTP基础必知必会

【Python爬虫基础教程 | 第一篇】URL、HTTP基础必知必会

前言

该专栏开设的目的在于给初学者提供一个学习爬虫的成长平台,文章涉及内容均为必备知识。

可订阅专栏:【Python爬虫教程】 | CSDN秋说

URL概念及组成结构

在开始爬虫的开发实战前,需要了解的是URL的概念及组成结构,这具有基础性和必要性。

URL(Uniform Resource Locator,统一资源定位符)是用于在互联网上定位和标识资源的字符串。它提供了一种标准的方式来指示资源的位置和访问方式。

例如:https://blog.csdn.net/2301_77485708就是一个URL。通过URL,我们可以方便地定位和访问互联网上的各种资源,例如网页、图片、视频等。

URL的组成结构如下:

【1】协议(Protocol):URL的第一部分是协议标识符,它指定了访问资源时要使用的协议类型,如HTTP、HTTPS、FTP等。HTTP在文章后面会讲到

【2】主机名(Host):主机名指定了存放资源的服务器的域名或IP地址。例如,www.example.com 或 192.168.0.1。

【3】端口号(Port):端口号是可选的,用于指定特定服务的端口号。如果未指定,默认使用与协议相关的默认端口号(如HTTP的默认端口号是80)。

【4】路径(Path):路径指定了服务器上资源的具体位置。它以正斜杠(/)开头,可以包含多个目录层次和文件名。

【5】查询字符串(Query):查询字符串是可选的,用于向服务器传递参数。它以问号(?)开始,并以键值对的形式出现,每对之间使用&符号分隔。

【6】片段标识(Fragment):片段标识也是可选的,用于指定资源中的特定片段或锚点。它以井号(#)开始,后面跟着片段标识符。我们常见的URL是没有片段标识的。

示例URL:

https://www.example.com:8080/path/to/resource?param1=value1&param2=value2#section1
  • 1

在示例中,协议是HTTPS,主机名是www.example.com,端口号是8080,路径是/path/to/resource,查询字符串是param1=value1&param2=value2,片段标识是section1

通过URL,我们可以方便地定位和访问互联网上的各种资源,例如网页、图片、视频等。

HTTP概念简述

HTTP(Hypertext Transfer Protocol)协议,又称超文本传输协议,用于传输文本、图像、音频、视频以及其他多媒体文件。它是Web应用程序通信的基础,通过HTTP协议,Web浏览器可以向Web服务器发起请求,并接收来自Web服务器的响应,从而实现Web页面的访问和数据传输。

浏览器接收资源

当我们在浏览器中输入一个URL并按下回车键时,实际上触发了浏览器向相应网站服务器发送请求的过程。一旦服务器接收到这个请求,它会对请求进行处理和解析,然后生成相应的响应数据并将其发送回浏览器。

在返回的响应数据中,包含了页面的源代码和其他相关内容。浏览器接收到这些数据后,会对其进行解析和渲染,最终将页面内容呈现给用户。这个过程包括加载和显示页面中的文本、图像、样式表以及其他媒体元素,使用户能够浏览和与页面交互。

在请求一个页面时,打开浏览器检查中的network:

在这里插入图片描述

从中我们能看到很多条目,一个条目就代表一次发送请求和接收响应。

对于每列来说:

  • name【名称】:请求名称通常使用URL的最后一部分作为名称。

  • status【状态】:响应状态码为200,表示响应正常。

  • type【类型】:文档类型为"document",表明这次请求是获取一个HTML文档,其中包含HTML代码。

  • Initiator【发起者】:请求源指示了发起该请求的对象或进程。

  • Size【大小】:显示从服务器下载的文件和请求资源的大小。如果资源来自缓存,则显示为"from cache"。

  • time【时间】:总共用于发起请求并获取响应的时间。

  • waterfall【瀑布流图】:展示了网络请求的可视化瀑布流。

对每一个条目来说:

在这里插入图片描述

Request URL(请求URL): 这是发起请求的目标URL。

Request Method(请求方法): 这是指HTTP请求的方法,例如GET、POST、PUT、DELETE等。在这个例子中,请求方法是POST,表示向服务器提交数据。

Status Code(状态码): 这是服务器对请求处理后返回的状态码。在这里,状态码为204,表示服务器成功处理了请求,但没有返回任何内容。

Remote Address(远程地址): 这是指服务器的远程地址,即请求发送到的服务器的地址。在这个例子中,远程地址为127.0.0.1:7890,表示请求发送到本地计算机的7890端口。

Referrer Policy(引用页策略): 这个字段通常用来指示浏览器在发送请求时要包含的引用页信息。由于提供的信息不完整,无法具体解释其含义。
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9

HTTP协议的结构

HTTP协议包含了HTTP请求和HTTP响应两个部分,其中HTTP请求由请求行、请求头和请求体组成;HTTP响应由状态行、响应头和响应体组成。HTTP协议还定义了一些请求方法,不同的请求方法对应不同的操作。

在这里插入图片描述

请求结构

如图为HTTP请求的完整结构(以GET请求为例):

在这里插入图片描述

请求行

HTTP请求中的首行称为请求行,其包括三个部分:请求方法、请求的资源路径和使用的协议版本。

GET /2301_77485708/article/details/136169661?spm=1001.2014.3001.5501 HTTP/1.1
  • 1

在本例中请求方法为GET,请求路径URI为/2301_77485708/article/details/136169661?spm=1001.2014.3001.5501,协议Protocol为HTTP/1.1。

请求方法是在进行网络通信时,客户端向服务器发送请求的方式。

常见的请求方法有以下几种:

  1. GET:用于请求获取服务器上的资源,可以在请求中附加参数。一般用于获取数据。
  2. POST:用于向服务器提交数据,比如表单数据、上传文件等。
  3. PUT:用于向服务器上传或更新资源,通常需要提供完整的资源信息。
  4. DELETE:用于删除服务器上的资源。
  5. PATCH:用于对服务器上的资源进行部分更新。
  6. HEAD:类似于GET请求,但只返回响应头部信息,不返回实际内容。
  7. OPTIONS:用于获取目标资源支持的请求方法列表。

在提交如"ice"、"Sec"等不可识别的方法时,部分服务器支持以GET方法返回,即默认GET。

请求资源路径是指客户端在向服务器发起HTTP请求时,指定所要访问的资源在服务器上的路径信息。请求方法与URI之间通常以一个空格分隔。

为了在同一个服务器上的不同资源之间相互引用时简化URL的书写,并且避免需要在每个资源链接中都包含完整的URL,请求行中的资源路径为相对路径。

在本例中,请求的资源路径为:

/2301_77485708/article/details/136169661?spm=1001.2014.3001.5501
  • 1

浏览器会将HOST与该路径自动填充,从而构建完整的URL进行请求。

出于跨平台兼容性等方面的考虑,换行符"\r\n"(回车符+换行符)被用作报文头部和报文主体之间以及各个字段之间的分隔符。
  • 1

请求头

请求头(Headers)用于携带关于请求或响应的元数据信息。

  1. Accept:指定客户端能够处理的媒体类型,用于请求中。

  2. Content-Type:指定请求或响应中的实体的媒体类型。

  3. User-Agent:标识客户端的应用程序、操作系统和版本信息。

  4. Host:指定服务器的主机名和端口号。

  5. Cookie:包含在请求中发送的Cookie信息。

  6. Referer:指示请求来源页面的URL。

  7. Location:指定重定向的目标URL。

  8. Content-Length:指定请求或响应正文的长度(以字节为单位)。

  9. Content-Encoding:指定响应正文的编码方式,如gzip或deflate。

在本例中:

  1. Host: blog.csdn.net
    • 指定请求的目标主机,即要访问的服务器地址为blog.csdn.net。
  2. Cookie: ICE
    • 包含用户身份验证或其他相关信息。
  3. User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/118.0
    • User-Agent字段包含了发送请求的客户端应用程序和操作系统的详细信息
  4. Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,/;q=0.8
    • 表示客户端能够接受的媒体类型,优先顺序为text/html、application/xhtml+xml等。
  5. Accept-Language: zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2
    • 指定客户端接受的自然语言及其优先级,表示首选中文(中国)、次选中文(通用)等。
  6. Accept-Encoding: gzip, deflate, br
    • 表示客户端支持的内容编码方式,包括gzip、deflate和br(Brotli)。
  7. Referer: https://blog.csdn.net/2301_77485708/
    • 指示该请求来源页面的URL,即当前请求是从https://blog.csdn.net/2301_77485708/页面发起的。

请求体

请求体(Request Body)是客户端发起POST、PUT等请求时发送给服务器的数据部分。

请求体中包含客户端想要提交给服务器的数据,以表单、JSON、XML、二进制数据等格式存在。在POST请求中,请求体通常包含了表单数据或上传的文件;在PUT请求中,请求体通常包含了要更新的资源信息;在DELETE、GET请求中,请求体通常为空。

在下图的POST请求包中,存在请求体:

在这里插入图片描述

表示提交的ice.txt文件的内容为ice。

同时由上图可以看到,该POST上传格式为multipart/form-data,其有利于传输多个字段的数据。

Content-Type: multipart/form-data; boundary=---------------------------31280281959535052723427005512


-----------------------------31280281959535052723427005512
Content-Disposition: form-data; name="MAX_FILE_SIZE"

100000
-----------------------------31280281959535052723427005512
Content-Disposition: form-data; name="uploaded"; filename="ice.txt"
Content-Type: text/plain

ice
-----------------------------31280281959535052723427005512
Content-Disposition: form-data; name="Upload"

Upload
-----------------------------31280281959535052723427005512--
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17

特殊的是,Content-Type中存在boundary,其定义了请求体中的分界线,使各部分数据相互独立互不干扰。若数据块中存在**filename=**字段,则表示上传文件,否则为POST参数。

请求差异及参数说明

POST请求头比GET请求头多引入了两个字段:Content-Length、Content-Type,分别指定请求体的长度及请求体内容类型。

在参数上,需要谨记的是:GET、POST参数的定义取决于参数所处位置。POST请求中,GET参数仍然存在于请求行中。

简单例题参考:https://blog.csdn.net/2301_77485708/article/details/130786891

在这里插入图片描述

响应结构

如图为HTTP响应的完整结构(以POST请求为例)

HTTP/1.1 200 OK
Server: nginx/1.15.11
Date: Mon, 19 Feb 2024 13:37:27 GMT
Content-Type: text/html;charset=utf-8
Connection: close
X-Powered-By: PHP/7.3.4
Pragma: no-cache
Cache-Control: no-cache, must-revalidate
Expires: Tue, 23 Jun 2009 12:00:00 GMT
Content-Length: 4134

<!DOCTYPE html>

<html lang="en-GB">

	<head>
		<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />

		<title>Vulnerability: File Upload :: Damn Vulnerable Web Application (DVWA)</title>

		<link rel="stylesheet" type="text/css" href="../../dvwa/css/main.css" />

	</head>

</html>
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25

在这里插入图片描述

状态行

HTTP/1.1 200 OK
  • 1

响应结构中首行称为状态行,包括三个部分,分别是HTTP版本、状态码和状态消息。

  1. HTTP版本:指定使用的HTTP协议版本,例如HTTP/1.0、HTTP/1.1、HTTP/2等。
  2. 状态码(status code):指示对请求的处理结果,通常是一个3位数字,例如200表示成功,404表示未找到请求的资源等。
  3. 状态消息(reason phrase):对状态码的简要描述,通常是一个文本字符串,例如"OK"、"Not Found"等。状态消息不是HTTP协议必需的,但是它可以提供更多的信息。

附上状态码说明:

  • 1xx(信息性状态码):表示接收到请求并且正在处理。
    • 100 Continue: 继续。服务器已经接收到请求头,客户端应该继续发送请求体。
    • 101 Switching Protocols: 切换协议。服务器要求客户端切换协议,例如从HTTP协议切换到WebSocket协议。
  • 2xx(成功状态码):表示请求已成功处理。
    • 200 OK: 请求成功。服务器成功处理了请求。
    • 201 Created: 已创建。请求成功,并且服务器创建了新的资源。
    • 204 No Content: 无内容。服务器成功处理了请求,但没有返回任何内容。
  • 3xx(重定向状态码):表示需要进一步的操作来完成请求。
    • 301 Moved Permanently: 永久重定向。请求的资源已被永久移动到新位置。
    • 302 Found: 临时重定向。请求的资源暂时移动到新位置。
    • 304 Not Modified: 未修改。客户端发送了一个条件请求,服务器确认资源未被修改。
  • 4xx(客户端错误状态码):表示请求包含语法错误或无法完成请求。
    • 400 Bad Request: 错误的请求。服务器无法理解请求的语法。
    • 401 Unauthorized: 未授权。需要身份验证才能访问资源。
    • 404 Not Found: 未找到。请求的资源不存在。
  • 5xx(服务器错误状态码):表示服务器在处理请求时发生了错误。
    • 500 Internal Server Error: 内部服务器错误。服务器遇到了意外错误,无法完成请求。
    • 503 Service Unavailable: 服务不可用。服务器暂时无法处理请求,通常是因为过载或维护。

响应头

响应头用于提供关于响应的元数据和控制。

Content-Type:指定响应主体的媒体类型。

Content-Length:指定响应主体的长度(字节数)。

Server:指定服务器软件的名称和版本。

Date:指定响应产生的日期和时间。

Set-Cookie:在响应中设置一个或多个Cookie。

Location:用于重定向,指定新的URL地址。

Cache-Control:指定响应的缓存策略。

Content-Encoding:指定响应主体的内容编码方式。

Access-Control-Allow-Origin:用于跨域资源共享(CORS),指定允许访问资源的源。

响应体

响应体(Response Body)是服务器返回给客户端的数据部分。与响应头部分不同,响应体通常是必须要有的部分,因为它包含了客户端所请求的资源或执行结果的具体内容。

响应体的格式通常使用Content-Type首部字段来指定,而响应体的长度则使用Content-Length首部字段来指定。

在这里插入图片描述

在本例中,响应体的格式遵循HTML。

当响应体语言为HTML时,可将响应体复制后使用浏览器打开,获取直观界面,也可使用Burp中的Render功能:

在这里插入图片描述

推广

对于爬虫而言,IP池是十分重要的。

协采云是企业级代理服务器池方案提供商,产品线涵盖高性能代理服务器软件开发、部署与运维,并提供公共代理池租用与私有代理池定制等业务。

在这里插入图片描述

协采云是企业大客户代理IP池接入平台,全程私密供应,1v1客户经理对接,保障供应稳定的同时,也具备安全性。

协采云自2014年上线以来,以资源和技术服务双引擎动,助力数据效果优化,先后为近干家企业提供解决方案,目前客户已覆盖大数据、互联网传媒、征信、电商、金融、旅游、教育等行业。

在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/271490
推荐阅读
相关标签
  

闽ICP备14008679号