赞
踩
大家好,我是淘小白~
按照关键词采集今日头条资讯文章的采集规则,淘小白一直都有,因为效率不高,所以,一直没有做折腾,近几天有几个朋友咨询头条资讯文章聚合的方式,能不能搞,今天就做了一下测试,下面把插件的测试效果做一下说明!
1、插件语言:Python
2、按照关键词批量采集资讯文章,聚合4篇文章
3、标题=关键词+第一篇文章标题
4、因为头条有反爬,列表的反爬只使用代理ip的效果不好,本人测试使用隧道,采集的聚合数据1700条+,有大部分关键词没有提取到数据,说明请求列表的时候存在了错误。
5、内容页提取不会触发反爬,所以,主要的问题是列表的反爬问题;
6、隧道代理每次请求都会更换ip ,如果代理ip解决不了反爬问题,那就是出在了其他方面,比如:请求头,经过测试,请求头的cookie会影响到列表数据的提取,cookie过一段时间会自动失效,即便你是用的代理ip,一样没用,这个确实很让人头疼。
7、想要稳定采集,还是得需要控制请求速度,速度请求的慢一些效果会好一些。
8、内容做了简单的清洗,首先是包含某个关键词的段落直接过滤掉,比如:作者,公众号,微信等关键词; ❤ TXB2196
9、文章图片做了保留,也可以根据自己的需求把图片下载到本地,默认是使用的远程链接。
10、文章样式如下:
标题 = 关键词+第一篇文章标题
内容样式:
<h3>第一篇文章标题</h3>
<p>第一篇文章内容</p>
<h3>第二篇文章标题</h3>
<p>第二篇文章内容</p>
<h3>第三篇文章标题</h3>
<p>第三篇文章内容</p>
<h3>第四篇文章标题</h3>
<p>第四篇文章内容</p>
11、如果有需要的朋友私信作者,对于文章的样式有其他要求的朋友,需要修改定制插件的朋友也可以私信我。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。