当前位置:   article > 正文

划题整理,计算机应用技术——网络爬虫和深度学习_深度学习算法爬虫

深度学习算法爬虫

1.什么是网络爬虫?

网络爬虫是指在互联网上自动爬取网站内容信息的程序,也被称作网络蜘蛛或网络机器人。大型的爬虫程序被广泛应用于搜索引擎、数据挖掘等领域,个人用户或企业也可以利用爬虫收集对自身有价值的数据。
举一个简单的例子,假设你在本地新开了一家以外卖生意为主的餐馆,现在要给菜品定价,此时便可以开发一个爬虫程序,在美团、饿了么、百度外卖这些外卖网站爬取大量其他餐馆的菜品价格作为参考,以指导定价。

2.简述网络爬虫程序的执行流程?

网络爬虫的执行流程可以总结为以下循环:

  1. 下载页面
    网页内容的本质是HTML文本,爬取一个网页内容之前,首先要根据网页的URL下载网页
  2. 提取页面中的数据
    当网页(HTML)下载完成后,对页面中的内容进行分析,并提取感兴趣的数据,提取数据可以多种形式保存,比如以某种格式(CSV、JSON)写入文件,或存储到数据库(MySQL、MongoDB)
  3. 提取页面中的链接
    想获取的数据往往不仅仅在一个页面中,而是分布在多个页面中,提取完当前页面数据后,提取页面中的链接,然后对链接页面进行爬取(循环1-3步)

3.简述使用Scrapy框架,完成一个简单的爬虫项目?

  1. 项目需求
    初学者爬虫网站(http://books.toscrape.com)爬取书籍信息
  2. 创建项目
    为了创建scrapy项目,在命令行中使用scrapy startproject命令
  3. 分析页面
    需要对待爬取的页面进行分析,使用Chrome浏览器的开发者工具分析页面
    3.1 数据信息
    在网页中鼠标右键“审查元素”,查看HTML代码
    3.2 链接信息
    在书籍列表页面,通过点击next访问下一页,通过“审查元素”查看next的HTML代码
  4. 实现Spider
    在scrapy中编写一个爬虫即实现一个scrapy.Spider的子类
  5. 运行爬虫
    完成代码后在命令行中执行 scrapy crawl <SPIDER_NAME>运行爬虫,并将爬取数据存储到csv文件

4.简述Scrapy框架及其工作原理?(要求画出书上的图!)

scrapy框架

包括Engine、Scheduler、Downloader、Spider、Middleware、ItemPipeline

工作原理

  • 当爬取URL页面时,构造Request对象提交给Engine
  • Request对象进入Scheduler按算法排队,之后出队送往Downloader
  • Downloader根据Request中URL发送HTTP请求,利用服务器返回响应构造Response对象
  • Response对象到达页面解析函数提取数据、封装Item交Engine、送往ItemPipeline处理,Exporter以某种格式写入文件

5.简要介绍Request对象和Response对象?

Request

Request对象用来描述一个HTTP请求,常用属性有:

  • url 请求页面的地址
  • method HTTP请求的方法
  • headers HTTP请求的头部字典
  • body HTTP请求的正文
  • meta 元数据字典

Response

Response对象用来描述一个HTTP响应,包括三个子类:

  • TextResponse
  • HtmlResponse
  • XmlResponse

HtmlResponse属性常用三个方法:

  • xpath(query)
  • css(query)
  • urljoin(url)

6.如何使用Selector提取数据?

  1. 创建对象:可以使用HTML传递给Selector构造器的text参数,也可以使用response传递给selsector的response参数
  2. 选中数据:调用selector对象的xpath方法或css方法选中文档的某个部分
  3. 提取数据:调用Selector或SelectorLis对象的方法可以将选中内容提取

7.简要介绍Xpath和CSS?

Xpath

Xpath即XML路径语言,是用来确定xml文档中某部分位置的语言

Xpath基础语法

/ 选中文档的根
. 选中当前节点
.. 选中当前节点的父节点
ELEMENT选中子节点中所有ELEMENT元素节点
//ELEMENT选中后代节点中所有ELEMENT元素节点
*选中所有元素子节点
text()选中所有文本子节点
@ATTR选中名为ATTR的属性节点
@*选中所有属性节点
[谓语]谓语用来查找某个特定的节点或者包含某个特定值的节点

CSS

CSS即层叠样式表,选择器是一种用来确定HTML文档中某部分位置的语言,CSS选择器的语法比Xpath稍微简单一些,但功能不如Xpath强大。

CSS基础语法

*选中所有元素
E选中E元素
E1,E2选中E1和E2元素
E1 E2选中E1后代元素中的E2元素
E1>E2选中E1子元素中的E2元素
E1+E2选中E1兄弟元素中的E2元素
.CLASS选中CLASS属性包含CLASS的元素
#ID选中id属性为ID的元素
[ATTR]选中包含ATTR属性的元素
[ATTR=VALUE]选中包含ATTR属性且值为VALUE的元素
[ATTR~=VALUE]选中包含ATTR属性且值包含VALUE的元素
E:nth-child(n)或者 E:nth-last-child(n)选中E元素,且该元素必须是其父元素的(或者倒数)第n个子元素
E:first-child或者·E:last-child选中E元素,且该元素必须是其父元素的(或者倒数)第一个子元素
E:empty选中没有子元素的E元素
E::text选中E元素的文本节点(Text Node)

8.简述如何使用Item封装数据?

对于提取到的网站中的多个信息字段,最容易想到是用Python的字典来维护这些零散的信息字段。由于字典
①不够直观、②容易写错、③不便传递给其他组件,在Scrapy中可以使用自定义的Item类封装数据。

Scrapy提供了Item和Field两个类,用户可以使用他们来自定义一个数据类,从而封装数据
为了自定义数据类,只需继承Item,并创建一系列Field对象的类属性即可。

①定义好的Item支持字典接口,因此Item在使用上和字典类似,
②并且Item内部会对字段名检测,当用户赋值没有意义字段时抛出错误。
③那么接下来使用Field元数据即可传递额外信息给处理数据的某个组件,告诉组件应该以怎样的方式处理数据。

9.简述使用ItemPipeline处理数据的过程?

ItemPipeline是处理数据的组件,一个ItemPipeline就是一个包含特定接口的类,通常只负责一种功能的数据处理,在一个项目中可以同时启用多个ItemPipeline,他们按指定次序级联起来,形成一条数据处理流水线。
ItemPipeline的几种典型应用

  • 清洗数据
  • 验证数据的有效性
  • 过滤掉重复的数据
  • 将数据存入数据库

在创建一个Scrapy项目时,会自动生成一个pipelines.py文件,它用来放置用户自定义的ItemPipeline,在其中可以按需求选择各种常用的方法。
在Scrapy中,ItemPipeline是可选的组件,想要启用某个(或某些)ItemPipeline需要在配置文件settings.py中进行配置即可使用。

10.简述使用LinkExtractor提取链接的过程?

Scrapy提供了一个专门用于提取链接的类LinkExtractor,在提取大量链接或提取规则比较复杂时,使用LinkExtractor更加方便。
使用LinkExtractor对象提取页面中链接的流程如下:

  • 导入LinkExtractor,它位于scrapy.linkextractors模块
  • 创建一个LinkExtractor对象使用一个或多个构造器参数描述提取规则
  • 调用LinkExtractor对象的extract_links方法传入一个Response对象,该方法依据创建对象时所描述的提取规则,在Response对象所包含的页面中提取链接,最终返回一个列表,其中的每一个元素都是一个Link对象,即提取到的一个链接
  • 由于页面中的下一页链接只有一个,因此用links[0]获取Link对象,Link对象的url属性便是链接页面的绝对url地址(无须再调用 response.urljoin方法),用其构造Request对象并提交。

11.给出BP反向传递学习算法中隐层到输出层权重梯度计算推导过程?

隐层到输出层权重梯度计算:

由链式法则有

∂ ε k ∂ w h j k = ∂ ε k ∂ s ( y j k ) ∂ S ( y j k ) ∂ y j k ∂ y j k ∂ w h j k \frac{\partial \varepsilon_{k}}{\partial w_{h j}^{k}}=\frac{\partial \varepsilon_{k}}{\partial s\left(y_{j}^{k}\right)} \frac{\partial \mathcal{S}\left(y_{j}^{k}\right)}{\partial y_{j}^{k}} \frac{\partial y_{j}^{k}}{\partial w_{h j}^{k}} whjkεk=s(yjk)εkyjkS(yjk)whjkyjk那么其中
∂ ε k ∂ s ( y j k ) = − ( d j k − S ( y j k ) ) = − e j k \frac{\partial \varepsilon_{k}}{\partial s\left(y_{j}^{k}\right)}=-\left(d_{j}^{k}-\mathcal{S}\left(y_{j}^{k}\right)\right)=-e_{j}^{k} s(yjk)εk=(djkS(yjk))=ejk
∂ s ( y j k ) ∂ y j k = S ′ ( y j k ) = S ( y j k ) ( 1 − S ( y j k ) ) \frac{\partial s\left(y_{j}^{k}\right)}{\partial y_{j}^{k}}=\mathcal{S}^{\prime}\left(y_{j}^{k}\right)=\mathcal{S}\left(y_{j}^{k}\right)\left(1-\mathcal{S}\left(y_{j}^{k}\right)\right) yjks(yjk)=S(yjk)=S(y

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/659241
推荐阅读
相关标签
  

闽ICP备14008679号