当前位置:   article > 正文

八爪鱼 ajax 循环采集,网页数据采集五大循环方式详解 - 八爪鱼采集器

循环采集包括

在八爪鱼中,创建循环列表有两种方式,一种是通过点击页面元素,选择相似的项,由八爪鱼自动创建的。适用于列表信息采集、列表及详情页采集。当自动创建的循环不能满足需求的时候,则需要我们手动创建或者修改循环,以满足更多的数据采集需求。

循环的高级选项中,有五大循环方式:URL循环、文本循环、单个元素循环、固定元素列表循环和不固定元素列表循环。

一、URL循环(云采集可实现加速)

适用情况:在多个同类型的网页中,网页结构要相同

二、文本循环(云采集可实现加速)

适用情况:在搜索框中循环输入关键词,采集关键词搜索结果的信息

实现方式:通过文本循环方式,实现循环输入关键词,采集关键词搜索结果。

三、单个元素循环

适用情况:需循环点击页面内的某个按钮。例如:循环点击“下一页”按钮进行翻页。

实现方式:通过单个元素循环方式,达到循环点击“下一页”按钮,进行翻页目的。

定位方式:使用XPath定位,始终定位到“下一页”按钮。

操作示例:

① 选中“下一页”按钮 → 选择“循环点击下一页”,建立翻页循环。

82c34513eb14ba2963a12cfa0f0349d4.gif

② 循环方式为“单个元素循环”,通过“单个元素循环”中的定位XPath,不断点击“下一页”按钮实现翻页。

f5e0b8bcc421661c2d09db8f27298ff2.png

四、固定元素列表循环(云采集可实现加速)

适用情况:网页上要采集的行数是固定数目的。

实现方式:通过固定元素列表循环,循环页面内的固定元素。

定位方式:使用XPath定位,一条XPath对应循环列表中的一个元素。

操作示例:

① 选中一个文章链接 →“选中全部”→ “循环点击每个链接”,建立循环列表。

b25c2f18b42456e0fcaf9cbfdc3be3a5.gif

② 自动生成的循环方式是:固定元素列表。打开固定元素列表查看,20条XPath,一一对应循环列表中的固定20个元素(也可以看成对应浏览器页面的20条文章链接)。

154a2602689f8dbfe732127ec718d004.png

这里涉及了XPath相关内容,可参考此 XPath教程

五、不固定元素列表循环

适用情况:网页上要采集的行数不是固定数目。

实现方式:通过不固定因素列表循环,循环页面内的不固定元素。

定位方式:使用XPath定位,一条XPath对应循环列表中的多个元素。

操作示例:

① 通过观察八爪鱼固定元素列表循环中生成的XPath:

//UL[@class='news-list']/LI[1]/DIV[2]/H3[1]/A[1]

//UL[@class='news-list']/LI[2]/DIV[2]/H3[1]/A[1]

......

//UL[@class='news-list']/LI[20]/DIV[2]/H3[1]/A[1]

20条XPath具有相同的特征:只有LI后面的数字不同。根据这个特征,我们可以写一条通用XPath://UL[@class='news-list']/LI/DIV[2]/H3[1]/A[1],通过这一条通用Xpath,可定位到页面中的全部10条文章链接。

将循环方式改为“不固定元素列表循环”,并将修改后的XPath填充进去。

c199bc275a292f61b64ce07a4e7b41f3.gif

② 可以看到,这条通用的XPath,对应循环列表中的所有20个元素(也可以看成对应浏览器页面的20条文章链接)。

a4ab7e40f6ffd8a891efc014e9c1f415.png

同理反推,也可以将不固定元素列表改成固定元素列表。

这里涉及了XPath相关内容,可参考 XPath教程

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/天景科技苑/article/detail/811547
推荐阅读
相关标签
  

闽ICP备14008679号