当前位置:   article > 正文

学习爬虫心得体会_对爬虫技术以及文本挖掘的的学习领会

对爬虫技术以及文本挖掘的的学习领会

 什么是爬虫:使用编程语言所编写的一个用于爬取Web或Appd数据的应用程序。

爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。 实际的网络爬虫系统通常是几种爬虫技术相结合实现的。

怎么爬取数据:
1、找到要爬取的目标网站、发起请求
2、分析URL是如何变化的和提取有用的URL
3、提取有用的数据
爬虫的基本流程:获取网页、解析网页、提取数据、保存数据。

爬虫基础

一、HTTP与HTTPS
●HTTP协议(全称是HyperText Transfer Plrotocal ),中文意思是超文本传输协议,是一种发布和接收HT ML (HyperText Markuup Language) 页面的方法。服务器端口号为80端口。
●HTTPS协议(全称是Hyper Text Transfer Protocol over SecureSocket Layer),是HTTP协议的加密版本,在HTTP 下加入了SSL层,服务器端口号是443。

二、URL与URI
●URL(网址)是Uriform Resource Locator的简写, 统一资源定位符。一个URL由以下几部分组成:

以东方财富网为例:

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/2023面试高手/article/detail/716250
推荐阅读
相关标签
  

闽ICP备14008679号