搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
盐析白兔
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
【四】【算法分析与设计】贪心算法的初见
2
PyQt5连接MySQL数据库(教程+案例)_pyqt5 前后端 链接数据库treeview
3
计算机中专怎么报考大专护理,中职中专毕业如何报考护理函授大专?
4
[Leetcode][python]Substring with Concatenation of All Words/与所有单词相关联的字串
5
人工智能|机器学习——K-means系列聚类算法k-means/ k-modes/ k-prototypes/ ......(划分聚类)
6
c语言中如何将以IEEE754标准显示的int型变量转换float型变量_flutter int32 转ieee754
7
华为鸿蒙2.0系统HarmonyOS 2.0安装谷 歌 商 店 G o o g l e P l a y_microg huawei
8
springboot基于知识图谱的短视频推荐系统设计与实现毕业设计源码231115_基于知识图谱的推荐系统用的什么代码
9
浅谈python中调用函数对实参原始值的影响_同样都是引用,为什么python的引用不会影响原值
10
鸿蒙(HarmonyOS)项目方舟框架(ArkUI)之Progress组件_鸿蒙progressdialog
当前位置:
article
> 正文
爬虫被封禁原因
作者:盐析白兔 | 2024-03-12 23:51:43
赞
踩
爬虫封控什么意思
爬虫被封禁常见原因
1.首先,检查 JavaScript 。如果你从网络服务器收到的页面是空白的,缺少信息,或其遇到他不符合你预期的情况(或者不是你在浏览器上看到的内容),有可能是因为网站创建页面的 JavaScript 执行有问题。
2.检查正常浏览器提交的参数。如果你准备向网站提交表单或发出 POST 请求,记得检查一下页面的内容,看看你想提交的每个字段是不是都已经填好,而且格式也正确。用 Chrome 浏览器的网络面板(快捷键 F12 打开开发者控制台,然后点击“Network”即可看到)查看发送到网站的 POST 命令,确认你的每个参数都是正确的
3.是否有合法的 Cookie?如果你已经登录网站却不能保持登录状态,或者网站上出现了其他的“登录状态”异常,请检查你的 cookie。确认在加载每个页面时 cookie 都被正确调用,而且你的 cookie 在每次发起请求时都发送到了网站上。
4.IP 被封禁?如果你在客户端遇到了 HTTP 错误,尤其是 403 禁止访问错误,这可能说明网站已经把你的 IP 当作机器人了,不再接受你的任何请求。你要么等待你的 IP 地址从网站黑名单里移除,要么就换个 IP 地址(可以去星巴克上网)。如果你确定自己并没有被封杀,那么再检查下面的内容。
确认你的爬虫在网站上的速度不是特别快。快速采集是一种恶习,会对网管的服务器造成沉重的负担,还会让你陷入违法境地,也是 IP 被网站列入黑名单的首要原因。给你的爬虫增加延迟,让它们在夜深人静的时候运行。切记:匆匆忙忙写程序或收集数据都是拙劣项目管理的表现;应该提前做好计划,避免临阵慌乱。
还有一件必须做的事情:修改你的请求头!有些网站会封杀任何声称自己是爬虫的访问者。如果你不确定请求头的值怎样才算合适,就用你自己浏览器的请求头吧。
确认你没有点击或访问任何人类用户通常不能点击或接入的信息。
如果你用了一大堆复杂的手段才接入网站,考虑联系一下网管吧,告诉他们你的目的。试试发邮件到 webmaster@< 域名 > 或 admin@< 域名 >,请求网管允许你使用爬虫采集数据。管理员也是人嘛!
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/盐析白兔/article/detail/226578
推荐阅读
article
Linux
基础
:
Vim
编辑器
实用指南...
vim
编辑器
使用指南
Linux
基础
:
Vim
编辑器
实用指南 前言 ...
赞
踩
article
实战
!教你
如何
破解
交换机
的
密码
(转)...
交换机
和路由器都需要有一定
的
安全保证,也就是说要及时为他们配置合理
的
密码
,那么如果这个
密码
忘记了怎么办呢?笔者就遇到过...
赞
踩
article
android
HAL
层
崩溃
排查记录...
所以,通过修改版本的分析,就知道问题版本出问题的原因了。
android
HAL
层
崩溃
排查记录 要...
赞
踩
article
【6】【
vue3
+
elementplus
+
springboot
+
mybatisplus
】 管理系统 ...
代码主要分成四部分,第一部分我们需要放在template里面,第二部分是选择按需部分引入的方式,我们可以不管,第三部分是...
赞
踩
article
小
和
问题
(
java
)...
之前写过归并排序,但是一直没有没有进行应用,啃了一下左神的算法,确实思路比我们第一次做好很多,具体
问题
描述如下:
小
和
问题
...
赞
踩
article
破解
Zip
加密
文件
常用
的
几种方法...
前言在互联网
的
浪潮中,大家也许碰到过这种情况:从网络上下载了一个zip
文件
,最后却发现它是用密码保护
的
,或者自己用密码加...
赞
踩
article
socket
通信
中文乱码_
nginx
和
phpfpm
通信
,
使用
unix
socket
还是
TCP
?...
php中文网最新课程每日17点准时技术干货分享前言
nginx
和fastcgi的
通信
方式有两种,一种是
TCP
的方式,一种是...
赞
踩
article
蓝桥
杯:
十六进制
转
十进制
(
C++
)_
c++
蓝桥
杯
十六进制
转
十进制
...
问题描述 从键盘输入一个不超过8位的正的
十六进制
数字符串,将它
转
换为正的
十进制
数后输出。 注:
十六进制
数中的10~1...
赞
踩
article
Flutter
屏幕
适配_
flutter
屏幕
对角线
尺寸
...
志当存高远。——诸葛亮
屏幕
尺寸
大全菜单栏共有5个选项,包括手机、平板、手表、电脑、显示器,分别显示
屏幕
尺寸
、PPI、纵横...
赞
踩
article
java
:
程序包
jdk
.
nashorn
.
internal
.ir.
annotations
不存在...
打开idea的project structure设置
jdk
版本为1.8即可。_
java
:
程序包
jdk
.
nashorn
....
赞
踩
article
蓝桥
杯C/
C++
每日一练之
十六进制
转
十进制
_
十六进制
转
十进制
题目
...
蓝桥
杯每日一练第二天
十六进制
转
十进制
。_
十六进制
转
十进制
题目
十六进制
转
十进制
题目
...
赞
踩
article
分组
密码
(对称
密码
)
_
什么是
分组
密码
算法
的
特点
...
分组
密码
:数据在密钥
的
作用下,一组一组、等长地被处理,且通常情况是密文、明文等长。
特点
:高强度、高速率、便于软硬实现
_
什...
赞
踩
article
Arduino
-----
超声波
传感器
的使用学习_
超声波
传感器
arduino
...
测距原理:发射探头发射
超声波
,
传感器
开始计时,在空气中遇到障碍物就会反射回来,接收器收到返回的
超声波
波以后就会停止计时,...
赞
踩
article
flutter
设置
container
的宽度
撑满
父
组件
_
flutter
铺满
父
控件...
我的Container内放了四个字,但是背景需要
撑满
父
组件
,设置高度没法做适配,最后发现了通过alignment可以实现...
赞
踩
article
安装
国产
系统
Kylin
-Desktop实战...
国产
系统
的
安装
_kylin-desktopkylin-desktop ...
赞
踩
article
1.4
如何对
链表
进行
重新
排序
_
链表
重新
排序
...
2.代码public class Sort { /** * 方法功能:找出
链表
的中间结点,并从中间断成两段 * 输入...
赞
踩
article
Android
约束
布局
(
ConstraintLayout
)的使用_
app
:
layout
_const...
1. 概述在
Android
中有许多的
布局
,比如 RelativeLayout,LinearLayout,FrameLay...
赞
踩
article
唯
密文
攻击
、已知
明文
攻击
、
选择
密文
攻击
、
选择
明文
攻击
(密码分析学中,四大
攻击
方式)_唯
密文
攻击
选择
...
唯
密文
攻击
、已知
明文
攻击
、
选择
密文
攻击
、
选择
明文
攻击
(密码分析学中,四大
攻击
方式)唯
密文
攻击
:唯
密文
攻击
是假定密码分析者...
赞
踩
article
python
写
的
爬虫
,
抓取
百度
的
搜索结果
,
被屏蔽
了
怎么办?_
python
百度
数据抓取不
了
...
某乎上有个热门话题
,
引起
了
很大
的
讨论。这个问题通常是由于频繁
的
请求导致
百度
的
反
爬虫
机制触发
了
验证码
的
保护机制。解决办法无...
赞
踩
article
密码学
基础-用于
信息安全
(
1
)
_先验
消息
攻击
...
密码体制分为两大类:单钥密码体制中,加密和解密使用同样的密钥,也称为对称密码体制;对称算法又可分为两类。一次只对明文中的...
赞
踩
相关标签
linux
vim
运维
android
addr2line
javascript
vue.js
spring boot
后端
java
vue3
elementui
操作系统
php
socket通信中文乱码
intellij-idea
ide
蓝桥杯
c++
c语言
密码学
学习
flutter
kylin