当前位置:   article > 正文

python 爬虫 获取百度源码_使用python爬取百度源代码

使用python爬取百度源代码
  1. # 获取百度页面源码.py
  2. # 使用urllib来获取百度首页的源码
  3. import urllib.request
  4. # (1) 定义一个url 想要访问的地址
  5. url = 'http://www.baidu.com/' # http不要有s
  6. # (2) 模拟浏览器向服务器发送请求 记得连网!
  7. response = urllib.request.urlopen(url)
  8. # 二进制-->字符串 解码 decode('编码的格式')
  9. # (3) 获取响应中的页面的源码
  10. # read方法 返回的是字节形式的二进制数据
  11. content = response.read().decode('utf-8')
  12. # (4) 打印数据
  13. print(content)

细节:

http和https的区别在于安全性和加密方式。

HTTP是超文本传输协议,它是一种用于传输超媒体文件(如HTML文件)的协议。它不提供数据的加密和安全性保护,通信过程中的数据易被窃听和篡改。

HTTPS是基于HTTP的安全版本,它在HTTP的基础上添加了数据加密和安全认证的功能。HTTPS使用SSL或TLS协议对通信数据进行加密,确保数据在传输过程中的安全性。通过使用数字证书,HTTPS可以验证服务器的身份,防止中间人攻击。

总结来说,http和https的主要区别在于安全性。http传输的数据不加密不安全,而https通过加密和身份验证来保护通信安全。因此,对于敏感信息的传输和支付等涉及个人隐私的操作,建议使用https协议

 AI帮助--CSDN C知道

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号