代理池原理 (给定ip源,简单的判断ip是否可用)
线程池原理 (实现多线程爬取,增加爬取效率)
oo面向思想 (面向对象编程,分模块编程,增加可读性,方便后期维护)
一些常用的库 (os、time、random、requests、pymysql、queue、threading)
2、ip_pool.py: 该文件是ip代理池文件, 功能:将给定的ip列表进行筛选,选出可用的ip方便后续请求。
2、spider_page.py: 该文件用于提取网页源码, 功能:selenisum去获取主页源码。
3、settings.py:该文件为配置文件, 功能:我们在程序启动之前可以选择爬虫的爬取方向,当然这个方向是由自己给定的。
4、is_API_Run.py: 该文件是API执行文件,功能:根据settings文件的配置输入,从而决定执行那些API函数。
5、API_Function.py: 该文件是API文件,功能:实现了各个API函数的功能实现。
1、在我们开始之前,让我们先了解下搜狗微信的主页面:https://weixin.sogou.com/ 若已了解则跳过这一步。
2、文章这里以主页中的 “搜索热词”、“编辑精选”、“热点文章”、“热门”举例演示。
- '''
- 启动程序
- '''
- #导包和导入自定义模块文件
- #自己编写的模块文件
- from spider_page import __init__source
- from is_API_Run import read_settings_run_func
- from thread_pool import Open_Thread_Assign_Links
- from ip_pool import ip_Pool
- #python包
- import os
- import time
- import random
- def ip(IP_POOL):
- '''
- 从IP_POOL(ip池)随机选出一个ip将其返回给主程序使用,
- :param IP_POOL: IP池
- :return: proxies ------随机的一个代理ip
- '''
- proxies = {
- "http": random.choice(IP_POOL),
- }
- return proxies
- def panding(proxies):
- '''在此处实现:判断工作文件路径下的page_source目录下是否有名为当日的文件(20210511.txt)--年月日的txt文件,
- 判断文件名是否符合要求(一天之内生成的) 若有则读取出来赋值page,返回给主程序使用,若没有则执行page=__init__source().html_source语句。
- 获取网页源代码,再将其命名保存,并且返回给主程序使用'''
- work_path = os.getcwd() # 获取工作路径
- html_path = os.path.join(work_path, 'page_source')
- if len(os.listdir(html_path)) > 0: # 判断路径下是否有文件
- flag = False
- for x in os.listdir(html_path): # 罗列出路径下所有的文件
- print("x:", x)
- if x == (time.strftime(r'%Y%m%d') + r'.txt'): # 找出当天生成的文件
- print("x:", x)
- with open(os.path.join(html_path, x), 'r', encoding="utf-8") as f:
- page = f.read()
- return page
- # 没有当天的文件就创建文件并写入html源码
- page = __init__source(proxies).html_source
- with open(os.path.join(html_path, time.strftime(r'%Y%m%d') + r'.txt'), 'w', encoding="utf-8") as f:
- f.write(page)
- else:
- page = __init__source(proxies).html_source
- with open(os.path.join(html_path, time.strftime(r'%Y%m%d') + r'.txt'), 'w', encoding="utf-8") as f:
- f.write(page)
- return page #将源码返回给主程序使用
- if __name__ == '__main__':
- IP_POOL = ip_Pool() # 启动ip代理池 (初始化ip类,并生成代理池对象,接下来从对象中获取ip池---IP_POOL.ip_pool)
- proxies = ip(IP_POOL.ip_pool) # 随机从ip池中拿出一个代理ip---proxies
- page = panding(proxies) # 初始化源码 (用代理ip请求主页源码,并保存于程序工作目录下的page_source文件夹下的以年月日为名的txt文件。)
- read_settings_run_func(page, proxies) # 读取配置文件并执行相应的API函数。
- Open_Thread_Assign_Links(proxies) # 开启线程池下载公众号文章
- # 导包
- import requests
- import time
- import re
- import threading
- # 定义测试的url链接,这里暂且选用www.baidu.com
- url = 'https://www.baidu.com/'
- # 定义测试的url链接www.baidu.com的请求头。
- headers = {
- 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
- 'Accept-Encoding': 'gzip, deflate, br', 'Accept-Language': 'zh-CN,zh;q=0.9', 'Cache-Control': 'max-age=0',
- 'Connection': 'keep-alive',
- 'Host': 'www.baidu.com', 'Referer': 'https', 'Sec-Fetch-Dest': 'document', 'Sec-Fetch-Mode': 'navigate',
- 'Sec-Fetch-Site': 'cross-site', 'Sec-Fetch-User': '?1', 'Upgrade-Insecure-Requests': '1',
- 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 SLBrowser/ SLBChan/15'}
- # 对url网站发起请求,根据返回体的状态码判断是否请求成功,若成功则该ip可用,若不成功则ip不可用,将ip从ip池中移除。
- # 那么这个ip池要保证在整个程序运行用ip皆可用
- # ip供应源(ip_source)
- ip_source = 'ip源'
- # 初始化ip池为空(Ip_Pool)
- Ip_Pool = []
- # ip的预期存留时间M
- M = 0
- # ip代理池类
- class ip_Pool:
- def __init__(self, ):
- self.ip_pool = [] # 初始化ip池属性,方便后续的ip池赋值。
- threading.Thread(target=self.return_ip_pool).start() # 开启子线程动态处理ip代理池,目的:保证ip池中ip的可用性的同时,又不会影响其他程序运行。所以开辟一个子线程。
- time.sleep(6) # 加这个等待时间,目的:给子线程足够的时间去获取ip,并填充ip池,保证返回给主程序的ip池不为空。
- def ip_yield(self):
- while True:
- while len(Ip_Pool) < 5: # 这里的while循环语句 目的:用于检测ip池中是否始终满足个数要求
- ip = requests.get(ip_source).text # 从ip源获取ip文本。
- if '{' in ip: # 检测从ip源是否成功获取到ip。若未获取到ip则会返回一个包含字典样式的字符串。
- continue
- # time.sleep(0.5) # 可以增加等待时间,以提高获取到ip的成功率
- else:
- ip = re.match('\S*', ip).group() # 对获取到的ip文本简单处理,目的去除\r\n字符。
- Ip_Pool.append(ip) # 将ip添加到ip池中。
- # 暂停M分钟,并将Ip_Pool返回出去使用
- yield Ip_Pool
- time.sleep(M)
- print('将IP池返回给主程序使用------' + str(M) + '半分钟后对IP池进行检测是否可用--------')
- #以下for循环是用于检测ip池中ip是否过期。
- for x in Ip_Pool:
- proxies = {'http': x}
- try:
- if requests.get(url, proxies=proxies, headers=headers).status_code == 200:
- # print('该ip正常,还能继续使用半分钟')
- pass
- except Exception:
- print('存在一个ip过期,即将从IP池中去除该ip')
- Ip_Pool.remove(x)
- def return_ip_pool(self):
- print("ip池线程启动")
- for self.ip_pool in self.ip_yield():
- pass
- '''
- 获取配置文件settings的输入给与相应的函数输出
- '''
- from API_Function import Functions
- from settings import configure
- class read_settings_run_func():
- def __init__(self, page, proxies):
- self.proxies = proxies
- self.page = page
- self.set = configure()
- self.func = Functions(self.page, self.proxies)
- self.test_settings()
- def test_settings(self):
- if self.set.Search_hot_words == True:
- self.func.Search_hot_words()
- else:
- print("mei")
- if self.set.Editor_s_selection == True:
- self.func.Editor_s_selection()
- else:
- print("mei")
- if self.set.Hot_articles == True:
- self.func.Hot_articles()
- else:
- print("mei")
- if self.set.Custom_hotspot_source_Text == True:
- self.func.Custom_hotspot_source_Text(self.set.text_list)
- else:
- print("mei")
- if self.set.Custom_hotspot_source_Url == True:
- self.func.Custom_hotspot_source_Url(self.set.Custom_hotspot_source_Url_List)
- else:
- print("mei")
- if self.set.Hot_event_sources_of_other_websites == True:
- self.func.Hot_event_sources_of_other_websites(self.set.Hot_event_sources_of_other_websites_List)
- else:
- print("mei")
- if self.set.input_text == True:
- self.func.input_text(self.set.text)
- else:
- print("mei")
- if self.set.Crawling_article == True:
- self.func.Crawling_article(self.set.text)
- else:
- print("mei")
- if self.set.Crawling_official_account == True:
- self.func.Crawling_official_account()
- else:
- print("mei")
- if self.set.Hot == True:
- self.func.Hot()
- else:
- print("mei")
- if self.set.Funny == True:
- self.func.Funny()
- else:
- print("mei")
- if self.set.Honyaradoh == True:
- self.func.Honyaradoh()
- else:
- print("mei")
- if self.set.Private_talk == True:
- self.func.Private_talk()
- else:
- print("mei")
- if self.set.Eight_trigrams == True:
- self.func.Eight_trigrams()
- else:
- print("mei")
- if self.set.Technocrats == True:
- self.func.Technocrats()
- else:
- print("mei")
- if self.set.Financial_fans == True:
- self.func.Financial_fans()
- else:
- print("mei")
- if self.set.Car_control == True:
- self.func.Car_control()
- else:
- print("mei")
- if self.set.Life_home == True:
- self.func.Life_home()
- else:
- print("mei")
- if self.set.Fashion_circle == True:
- self.func.Fashion_circle()
- else:
- print("mei")
- if self.set.Parenting == True:
- self.func.Parenting()
- else:
- print("mei")
- if self.set.Travel == True:
- self.func.Travel()
- else:
- print("mei")
- if self.set.Workplace == True:
- self.func.Workplace()
- else:
- print("mei")
- if self.set.delicious_food == True:
- self.func.delicious_food()
- else:
- print("mei")
- if self.set.history == True:
- self.func.history()
- else:
- print("mei")
- if self.set.education == True:
- self.func.education()
- else:
- print("mei")
- if self.set.constellation == True:
- self.func.constellation()
- else:
- print("mei")
- if self.set.Sports == True:
- self.func.Sports()
- else:
- print("mei")
- if self.set.military == True:
- self.func.military()
- else:
- print("mei")
- if self.set.game == True:
- self.func.game()
- else:
- print("mei")
- if self.set.cute_pet == True:
- self.func.cute_pet()
- else:
- print("mei")
- if self.set.Home_page_hot == True:
- self.func.Home_page_hot()
- else:
- print("mei")
- '''
- *****配置文件*****
- 作用:便于用户设置输入,程序运行时从此文件读取参数属性,以便程序 明确执行 “动作”
- '''
- set_dir={
- # 热点事件爬取(为以下三类)
- # 微信公众号热点来源(子集有三类)
- # 搜索热词
- 'Search_hot_words': True,
- # 编辑精选
- 'Editor_s_selection': True,
- # 热点文章
- 'Hot_articles': True,
- # 自定义热点来源
- # 文本的形式--列表
- 'Custom_hotspot_source_Text': True,
- # 若 Custom_hotspot_source_List:True 请在此处列表添加热点来源---文本
- 'text_list': [],
- # 链接的形式--列表
- 'Custom_hotspot_source_Url': True,
- # 若 Custom_hotspot_source_Url:True 请在此处列表添加热点来源---链接
- 'Custom_hotspot_source_Url_List': '[]',
- # 其他网站的热点事件来源
- # 提取文本--列表
- 'Hot_event_sources_of_other_websites': False,
- # 若 Hot_event_sources_of_other_websites:True 请在此处列表添加热点事件来源---文本
- 'Hot_event_sources_of_other_websites_List': [],
- # 输入关键字文本爬取
- #在此处输入文本
- 'text':[],
- 'input_text':False,
- # 爬取文章
- 'Crawling_article':False,
- # 爬取公众号
- 'Crawling_official_account':False,
- # 微信公众号分类爬取--加载到更多
- # 热门
- 'Hot':True,
- # 搞笑
- 'Funny':True,
- # 养生堂
- 'Honyaradoh':False,
- # 私房话
- 'Private_talk':False,
- # 八卦精
- 'Eight_trigrams':False,
- # 科技咖
- 'Technocrats':False,
- # 财经迷
- 'Financial_fans':False,
- # 汽车控
- 'Car_control':False,
- # 生活家
- 'Life_home':False,
- # 时尚圈
- 'Fashion_circle':False,
- # 育儿
- 'Parenting':False,
- # 旅游
- 'Travel':False,
- # 职场
- 'Workplace': False,
- # 美食
- 'delicious_food': False,
- # 历史
- 'history': False,
- # 教育
- 'education': False,
- # 星座
- 'constellation': False,
- # 体育
- 'Sports': False,
- # 军事
- 'military': False,
- # 游戏
- 'game': False,
- # 萌宠
- 'cute_pet': False,
- # 主页热推
- 'Home_page_hot': False,
- }
- class configure():
- def __init__(self):
- self.Search_hot_words = set_dir.get('Search_hot_words')
- self.Editor_s_selection = set_dir.get('Editor_s_selection')
- self.Hot_articles = set_dir.get('Hot_articles')
- self.Custom_hotspot_source_Text = set_dir.get('Custom_hotspot_source_Text')
- self.text_list = set_dir.get('text_list')
- self.Custom_hotspot_source_Url = set_dir.get('Custom_hotspot_source_Url')
- self.Custom_hotspot_source_Url_List = set_dir.get('Custom_hotspot_source_Url_List')
- self.Hot_event_sources_of_other_websites = set_dir.get('Hot_event_sources_of_other_websites')
- self.input_text = set_dir.get('input_text')
- self.Crawling_article = set_dir.get('Crawling_article')
- self.Crawling_official_account = set_dir.get('Crawling_official_account')
- self.Hot = set_dir.get('Hot')
- self.Funny = set_dir.get('Funny')
- self.Honyaradoh = set_dir.get('Honyaradoh')
- self.Private_talk = set_dir.get('Private_talk')
- self.Eight_trigrams = set_dir.get('Eight_trigrams')
- self.Technocrats = set_dir.get('Technocrats')
- self.Financial_fans = set_dir.get('Financial_fans')
- self.Car_control = set_dir.get('Car_control')
- self.Life_home = set_dir.get('Life_home')
- self.Fashion_circle = set_dir.get('Fashion_circle')
- self.Parenting = set_dir.get('Parenting')
- self.Travel = set_dir.get('Travel')
- self.Workplace = set_dir.get('Workplace')
- self.delicious_food = set_dir.get('delicious_food')
- self.history = set_dir.get('history')
- self.education = set_dir.get('education')
- self.constellation = set_dir.get('constellation')
- self.Sports = set_dir.get('Sports')
- self.military = set_dir.get('military')
- self.game = set_dir.get('game')
- self.cute_pet = set_dir.get('cute_pet')
- self.Home_page_hot = set_dir.get('Home_page_hot')
8、API文件模块:API_Function.py 定义了一些配置文件中对应的处理函数
- # 导包
- import requests
- from bs4 import BeautifulSoup
- import pymysql
- # 后面发起请求会用到的请求头和请求url
- url = 'https://weixin.sogou.com/' # 搜狗微信的入口url链接
- headers = {'authority': 'weixin.sogou.com', 'method': 'GET', 'path': '/', 'scheme': 'https',
- 'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
- 'accept-encoding': 'gzip, deflate, br', 'accept-language': 'zh-CN,zh;q=0.9', 'cache-control': 'max-age=0',
- 'cookie': 'ABTEST=7|1619743404|v1; IPLOC=CN3205; SUID=5E9A50754018960A00000000608B52AC; SUID=5E9A5075AF21B00A00000000608B52AC; weixinIndexVisited=1; SUV=0087AD4475509A5E608B52ADF7A81201; SNUID=CD8A73542124E19CE9C1C01321869CD8; JSESSIONID=aaaUz7AAKRNv6gHXIfJGx',
- 'sec-fetch-dest': 'document', 'sec-fetch-mode': 'navigate', 'sec-fetch-site': 'none', 'sec-fetch-user': '?1',
- 'upgrade-insecure-requests': '1',
- 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 SLBrowser/ SLBChan/15'}
- class Functions():
- def __init__(self, page, proxies):
- # 代理
- self.proxies = proxies
- # 搜狗微信主页的网页源码
- self.page = page
- # bs4初始化网页源码
- self.soup = BeautifulSoup(self.page, 'lxml')
- # 连接mysql数据库,返回一个数据库对象
- self.coon = pymysql.connect(user='root', password='clly0528', db='gc')
- # 创建游标对象,方便后续执行sql语句操作
- self.cur = self.coon.cursor()
- # 删除已存在的同名的数据表
- self.clear_database()
- def clear_database(self):
- self.cur.execute("show tables like 'urls'")
- if len(self.cur.fetchall()) == 0:
- print("创建表")
- # 创建表
- self.cur.execute('''create table urls(id int not NULL auto_increment,
- href varchar(500) not NULL,
- title varchar(500) not NULL,
- primary key (id)
- );''')
- else:
- # 删除表
- self.cur.execute("drop table urls")
- self.coon.commit()
- # 创建表
- print(30 * '-' + "删除原表,创建新表!" + 30 * '-')
- self.cur.execute('''create table urls(id int auto_increment primary key,
- href varchar(500) not NULL,
- title varchar(500) not NULL
- );''')
- #提交保存
- self.coon.commit()
- # ***********************************************************************************************************************
- def Search_hot_words(self): # 搜索热词
- for tag in self.soup.select('#topwords > li > a'): # 罗列出每个tga标签对象的href属性与title属性
- sql = r"insert into urls(href,title) value(" + "'" + tag.attrs['href'] + "'" + ',' + "'" + tag.attrs[
- 'title'] + "'" + ")"
- print("搜索热词sql: ", sql)
- self.cur.execute(sql)
- self.coon.commit()
- def Editor_s_selection(self): # 编辑精选
- p_soup_list = self.soup.select(".aside >p")
- for p_soup in p_soup_list:
- if p_soup.get_text() == "编辑精选":
- a_soup = p_soup.find_next("ul").select('li >.txt-box > .p1 >a')
- for tag in a_soup:
- sql = r"insert into urls(href,title) value(" + "'" + tag.attrs['href'] + "'" + ',' + "'" + \
- tag.attrs[
- 'title'] + "'" + ")"
- print("编辑精选sql: ", sql)
- self.cur.execute(sql)
- self.coon.commit()
- def Hot_articles(self): # 热点文章
- p_soup_list = self.soup.select(".aside >p")
- for p_soup in p_soup_list:
- if p_soup.get_text() == "热点文章":
- a_soup = p_soup.find_next("ul").select('li >.txt-box > .p1 >a')
- for tag in a_soup:
- sql = r"insert into urls(href,title) value(" + "'" + tag.attrs['href'] + "'" + ',' + "'" + \
- tag.attrs[
- 'title'] + "'" + ")"
- print("热点文章sql: ", sql)
- self.cur.execute(sql)
- self.coon.commit()
- def Custom_hotspot_source_Text(self, text_list): # 自定义热点文本
- a = "https://weixin.sogou.com/weixin?type=2&s_from=input&query="
- for text in text_list:
- response = requests.get(a + text, headers=headers, proxies=self.proxies)
- print(response.text)
- def Custom_hotspot_source_Url(self, url_list): # 热点来源---链接
- pass
- def Hot_event_sources_of_other_websites(self, list): # 选定某个网站作为外来热点来源-----写个爬虫去定向的爬取该网站的热点作为文本输入
- pass
- def input_text(self, text_list): # 搜文章
- a = "https://weixin.sogou.com/weixin?type=2&s_from=input&query="
- for text in text_list:
- response = requests.get(a + text, headers=headers, proxies=self.proxies)
- print(response.text)
- def Crawling_article(self, text_list): # 搜公众号
- a = "https://weixin.sogou.com/weixin?type=1&s_from=input&query="
- for text in text_list:
- response = requests.get(a + text, headers=headers, proxies=self.proxies)
- print(response.text)
- def Hot(self, num=20, pd=0): # 分类--热门--提取相关文章链接 flag=False, 是否加载更多,默认加载20条,num=20,自定义加载多少条
- pn = 0
- if num > 20:
- pn = num / 20
- for n in range(pn):
- self.pc(n)
- print("再一次执行这个函数")
- return "函数已执行完!"
- else:
- self.pc(pn, pd)
- # ----------------------------- 开始 pc()函数为分类爬取中所需的常用函数,所以单独提出来。--------------------------------------
- def pc(self, pn, pd):
- if pn >= 1:
- url = "https://weixin.sogou.com/pcindex/pc/pc_" + str(pd) + "/" + str(pn) + ".html"
- else:
- url = "https://weixin.sogou.com/pcindex/pc/pc_" + str(pd) + "/pc_" + str(pd) + ".html"
- print("url:", url)
- a = "li > .txt-box > h3 > a "
- res = requests.get(url, headers=headers, proxies=self.proxies).content.decode("utf8")
- self.soup = BeautifulSoup(res, 'lxml')
- a_soup = self.soup.select(a)
- print(a_soup)
- for tag in a_soup:
- sql = r"insert into urls(href,title) value(" + "'" + tag.attrs['href'] + "'" + ',' + "'" + \
- tag.text + "'" + ")"
- print("分类--热门sql: ", sql)
- self.cur.execute(sql)
- self.coon.commit()
- # ---------------------------- 结束 pc() ----------------------------------------------------------------------------
- def Funny(self, num=20, pd=1):
- print("Funny")
- pn = 0
- if num > 20:
- pn = num / 20
- for n in range(pn):
- self.pc(n, pd)
- print("再一次执行这个函数")
- return "函数已执行完!"
- else:
- self.pc(pn, pd)
- print("可以")
- def Honyaradoh(self, num=20, pd=2):
- pn = 0
- if num > 20:
- pn = num / 20
- for n in range(pn, pd):
- self.pc(n, pd)
- print("再一次执行这个函数")
- return "函数已执行完!"
- else:
- self.pc(pn, pd)
- def Private_talk(self, num=20, pd=3):
- pn = 0
- if num > 20:
- pn = num / 20
- for n in range(pn):
- self.pc(n, pd)
- print("再一次执行这个函数")
- return "函数已执行完!"
- else:
- self.pc(pn, pd)
- def Eight_trigrams(self, num=20, pd=4):
- pn = 0
- if num > 20:
- pn = num / 20
- for n in range(pn):
- self.pc(n, pd)
- print("再一次执行这个函数")
- return "函数已执行完!"
- else:
- self.pc(pn, pd)
- def Technocrats(self, num=20, pd=5):
- pn = 0
- if num > 20:
- pn = num / 20
- for n in range(pn):
- self.pc(n, pd)
- print("再一次执行这个函数")
- return "函数已执行完!"
- else:
- self.pc(pn, pd)
- def Financial_fans(self, num=20, pd=6):
- pn = 0
- if num > 20:
- pn = num / 20
- for n in range(pn):
- self.pc(n, pd)
- print("再一次执行这个函数")
- return "函数已执行完!"
- else:
- self.pc(pn, pd)
- def Car_control(self, num=20, pd=7):
- pn = 0
- if num > 20:
- pn = num / 20
- for n in range(pn):
- self.pc(n, pd)
- print("再一次执行这个函数")
- return "函数已执行完!"
- else:
- self.pc(pn, pd)
- def Life_home(self, num=20, pd=8):
- pn = 0
- if num > 20:
- pn = num / 20
- for n in range(pn):
- self.pc(n, pd)
- print("再一次执行这个函数")
- return "函数已执行完!"
- else:
- self.pc(pn, pd)
- def Fashion_circle(self, num=20, pd=9):
- pn = 0
- if num > 20:
- pn = num / 20
- for n in range(pn):
- self.pc(n, pd)
- print("再一次执行这个函数")
- return "函数已执行完!"
- else:
- self.pc(pn, pd)
- def Parenting(self, num=20, pd=10):
- pn = 0
- if num > 20:
- pn = num / 20
- for n in range(pn):
- self.pc(n, pd)
- print("再一次执行这个函数")
- return "函数已执行完!"
- else:
- self.pc(pn, pd)
- def Travel(self, num=20, pd=11):
- pn = 0
- if num > 20:
- pn = num / 20
- for n in range(pn):
- self.pc(n, pd)
- print("再一次执行这个函数")
- return "函数已执行完!"
- else:
- self.pc(pn, pd)
- def Workplace(self, num=20, pd=12):
- pn = 0
- if num > 20:
- pn = num / 20
- for n in range(pn):
- self.pc(n, pd)
- print("再一次执行这个函数")
- return "函数已执行完!"
- else:
- self.pc(pn, pd)
- def delicious_food(self, num=20, pd=13):
- pn = 0
- if num > 20:
- pn = num / 20
- for n in range(pn):
- self.pc(n, pd)
- print("再一次执行这个函数")
- return "函数已执行完!"
- else:
- self.pc(pn, pd)
- def history(self, num=20, pd=14):
- pn = 0
- if num > 20:
- pn = num / 20
- for n in range(pn):
- self.pc(n, pd)
- print("再一次执行这个函数")
- return "函数已执行完!"
- else:
- self.pc(pn, pd)
- def education(self, num=20, pd=15):
- pn = 0
- if num > 20:
- pn = num / 20
- for n in range(pn):
- self.pc(n, pd)
- print("再一次执行这个函数")
- return "函数已执行完!"
- else:
- self.pc(pn, pd)
- def constellation(self, num=20, pd=16):
- pn = 0
- if num > 20:
- pn = num / 20
- for n in range(pn):
- self.pc(n, pd)
- print("再一次执行这个函数")
- return "函数已执行完!"
- else:
- self.pc(pn, pd)
- def Sports(self, num=20, pd=17):
- pn = 0
- if num > 20:
- pn = num / 20
- for n in range(pn):
- self.pc(n, pd)
- print("再一次执行这个函数")
- return "函数已执行完!"
- else:
- self.pc(pn, pd)
- def military(self, num=20, pd=18):
- pn = 0
- if num > 20:
- pn = num / 20
- for n in range(pn):
- self.pc(n, pd)
- print("再一次执行这个函数")
- return "函数已执行完!"
- else:
- self.pc(pn, pd)
- def game(self, num=20, pd=19):
- pn = 0
- if num > 20:
- pn = num / 20
- for n in range(pn):
- self.pc(n, pd)
- print("再一次执行这个函数")
- return "函数已执行完!"
- else:
- self.pc(pn, pd)
- def cute_pet(self, num=20, pd=20):
- pn = 0
- if num > 20:
- pn = num / 20
- for n in range(pn):
- self.pc(n, pd)
- print("再一次执行这个函数")
- return "函数已执行完!"
- else:
- self.pc(pn, pd)
- def Home_page_hot(self, num=20, pd=21):
- pn = 0
- if num > 20:
- pn = num / 20
- for n in range(pn):
- self.pc(n, pd)
- print("再一次执行这个函数")
- return "函数已执行完!"
- else:
- self.pc(pd)
- #导包
- from multiprocessing import cpu_count
- import threading
- import requests
- import queue
- import pymysql
- import time
- '''
- pymysql创建一个coon数据库对象,将数据库中的重复链接去重(变唯一),把所有的链接拿出来放到队列中去(需要定义队列对象--初始化队列对象)
- 从队列中拿出数据分给线程去处理,注意:拿出数据的这个动作它是唯一的(就是只能每次一个线程去拿----加锁--锁定只能一个线程拿---线程锁)
- 编写线程函数--每个线程函数内容皆一样(都是去下载html页面,用到的是requests库),将数据放到数据库中-建表--方便后面数据清洗
- '''
- class Open_Thread_Assign_Links(): # 开启线程,分配链接
- def __init__(self,proxies):
- # 请求头
- self.headers = {'authority': 'weixin.sogou.com', 'method': 'GET', 'path': '/', 'scheme': 'https',
- 'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
- 'accept-encoding': 'gzip, deflate, br', 'accept-language': 'zh-CN,zh;q=0.9',
- 'cache-control': 'max-age=0',
- 'cookie': 'ABTEST=7|1619743404|v1; IPLOC=CN3205; SUID=5E9A50754018960A00000000608B52AC; SUID=5E9A5075AF21B00A00000000608B52AC; weixinIndexVisited=1; SUV=0087AD4475509A5E608B52ADF7A81201; SNUID=CD8A73542124E19CE9C1C01321869CD8; JSESSIONID=aaaUz7AAKRNv6gHXIfJGx',
- 'sec-fetch-dest': 'document', 'sec-fetch-mode': 'navigate', 'sec-fetch-site': 'none',
- 'sec-fetch-user': '?1', 'upgrade-insecure-requests': '1',
- 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 SLBrowser/ SLBChan/15'}
- #创建锁对象
- self.lock = threading.Lock()
- #确定线程数
- self.Mul_Num()
- # 代理
- self.proxies=proxies
- #创建队列
- self.q = queue.Queue(500)
- # 从数据库中取出url数据
- self.url_tuple = self.get()
- # 将链接压进队列
- self.Push_Element_Queue(self.url_tuple)
- # 启动线程处理队列
- self.Run_thread()
- def get(self): # 从数据库中取出url数据 #便于初始化类时从数据库中拿出数据,也方便后续界面用户发起的请求
- coon = pymysql.connect(user='root', password='clly0528', db='gc')
- cur = coon.cursor()
- cur.execute('select * from urls')
- urls_list = cur.fetchall()
- # print("*:",urls_list)
- return urls_list
- def Push_Element_Queue(self, urls_list):
- for tuple_x in urls_list:
- self.q.put(tuple_x[1]) #将链接压进队列
- # print("q:",self.q)
- def Run_thread(self):
- cut=0
- for thread_id in range(self.mul_num):
- cut+=1
- threading.Thread(target=self.spider,args=(self.q,cut)).start()
- print("已成功开启%d个线程" % self.mul_num)
- # 线程函数
- def spider(self,lq,cut):
- print("开启线程 %d ...." % cut)
- while True:
- while lq.empty:
- # 加锁
- self.lock.acquire()
- # 保证这个动作单一,同一时间只能由一个线程主管
- url = lq.get(block=True, timeout=None)
- # 解锁
- self.lock.release()
- # 这里获取到返回体,将返回体通过yield关键字传递给数据处理类。。
- print("下载文章...")
- responese=requests.get(url=url,headers=self.headers,proxies=self.proxies)
- # 文章内容写入磁盘
- Generate_file(responese)
- # 确定开启几个线程
- def Mul_Num(self):
- # x: cpu实际运行时间 y: 线程等待时间
- N = cpu_count()
- x = 1
- y = 5
- self.mul_num = int(N * (x + y) / x)
- # 将下载后的文章写入磁盘html_page中
- def Generate_file(responese):
- print("文章写入文件夹")
- with open(r'C:\Users\Windows_pycharm\Desktop\G\图书管理系统\微信公众号爬取\html_page'+'\\'+time.strftime('%Y%m%d%H%M%S') + '.txt','w',encoding='utf-8') as f:
- f.write(responese.text)
