python requests爬虫——爬取李开复博客信息（包括javascript部分信息）_李开复的博客爬虫

作者：我家自动化 | 2024-03-12 23:57:12

踩

李开复的博客爬虫

今天是国庆假期第二天，已经玩了一天了，今天整理一下前两天写的数据分析作业思路，给实验报告打一下底稿。供对爬虫有兴趣的小伙伴们参考，也希望给实验没完成的同学提供一点小小的帮助。

任务要求。

1）分析页面结构，确定待抓取的数据项，至少应抓取文章标题、发表时间、正文内容、文章URL等，可以根据选择的抓取目标的内容特点增加额外的数据项。（如抓取新浪博客时可以额外抓取标签、分类、阅读数、评论数等数据项），新闻类可以额外抓取作者、新闻来源等数据项。

注意：标签、分类都是数组，应按照数组/列表形式来存储数据。

评分标准：满分35分；每个数据项5分，能够获取主要数据项4项，30分，抓取额外数据项目2项以上给满分；

2）正确处理目录页面和正文页面，能够自动抓取至少100篇网页内容。

评分标准：满分25分；每20条数据5分，根据爬取的数量给分超过100篇，满分；3）数据持久化。将数据存入磁盘文件。

评分标准：满分20分；根据无写入，写入文本或Excel，写入数据库确定分数；无写入0分，写入文本或Excel 10分；写入数据库20分；

数据处理

评分标准：满分15分；提到数据处理5分；每个数据处理问题5分，解决两个以上数据处理问题的给予15分；

报告整体情况：

评分标准：报告格式整洁程度5分；

加分：实验报告中未要求的但在实验过程中发现新的问题，每个加5分，不超过10分。

2.实验需要了解requests,re库，用来爬取数据文本以及提取其中的指定信息，还需要稍微了解sqlalchemy中的create_engine（）方法，用于把数据存入数据库中。静态网页信息比较容易爬取，但博客网页中采用了Ajax,全称是Asynchronous Javascript and XML,即异步的JavaScript和XML.能够利用JavaScript在保证页面不被刷新，页面链接不变的情况下与服务器交换数据并更新部分网页的技术。这种情况下有两种思想获得相应的数据，一种是爬取页面被渲染前的数据，一种是爬取页面被渲染后的数据。本文先介绍爬取页面被渲染前的json文件。

3.下面是实现代码：


'''
coding:requests.apparent_encoding
@author: Li Sentan
@time:2021.9.30
@file:infoblog_requests1.py
'''
import requests
import re
from bs4 import BeautifulSoup
import pandas as pd
import time
 
from sqlalchemy import create_engine
 
#得到抓取到的网页信息的内容，返回网页源代码的text格式
def getHTMLText(url):
    try:
        kv = {'user-agent':'Mozilla/5,0'}
        r = requests.get(url,headers = kv,timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "页面请求失败！"
 
#得到每篇博客的链接，并存到数组中
def gethref(depth):
    scale = 80
    start = time.perf_counter()
    hrefall = []
    start_url = 'http://blog.sina.com.cn/s/articlelist_1197161814_0_'
    print("正在抓取href,请稍候".center(scale // 2, '-'))
    for i in range(1, depth + 1):
        try:
            url = start_url + str(i) + ".html"
            html = getHTMLText(url)
            soup = BeautifulSoup(html, "html5lib")
            for link in soup.find_all("a", title="", target="_blank"):
                href = link.get("href")
                href2 = href.split("/")[-1].split("_")[0]
                if href2 == "blog":
                    # print(href)
                    hrefall.append(href)
                    # print(count)
                    # print(link.get_text())
                    # textall.append(link.get_text())
        except:
            continue
    print("抓取href用时:{}".format(time.perf_counter()-start))
    return hrefall
 
#得到每篇博客的文章名称和内容，以数组形式存储。
def gettext(hrefall):
    scale = 80
    start = time.perf_counter()
    # chinesetextall = []
    # englishtextall = []
    aidsall = []
    textnameall = []
    textall= []
    count = 1
    total = len(hrefall)
    print("正在抓取text和textname,请稍候".center(scale // 2, '-'))
    for i in hrefall:
        aa = '*' * (count // 5)
        bb = '-' * ((total - count) // 5)
        c = (count / total) * 100
        aid = i.split("/")[-1].split("_")[1]
        b = ""
        for j in range(10,16):
            b+=aid[j]
        aids = b
        aidsall.append(aids)
        soup = BeautifulSoup(getHTMLText(i),"html5lib")
        for link in soup.find_all("title"):
            textname = link.get_text().split("_")[0]
            if textname != "":
                textnameall.append(textname)
            else:
                textnameall.append("NaN")
                print('\n'+'抓取Textname信息有遗漏，请在网络良好的情况下运行。'.center(scale // 2, '-'))
        for link in soup.find_all("div", id="sina_keyword_ad_area2"):
            text = link.get_text()
            text = re.sub("[\n\t\u200b\xa0\u3000]", " ", text)
            # chinese = text.split("英文全文：")[0]
            # english = text.split("英文全文：")[1]
            # print(chinese, "\n", "  ", english)
            if text != []:
                textall.append(text)
            else:
                textall.append("NaN")
                print('抓取Text信息有遗漏，请在网络良好的情况下运行。'.center(scale // 2, '-'))
        dur = time.perf_counter() - start
        print("\r{:^3.0f}%[{}->{}]{:.2f}s".format(c, aa, bb, dur), end='')
        count = count + 1
    print("\n"+"抓取text和textname用时:{}".format(time.perf_counter() - start))
    return textnameall,textall,aidsall
 
#得到每篇博客的收藏数，喜欢数，阅读数，转载数，评论数，同样以数组形式存储。
def getnumber(aidsall):
    scale = 80
    fall = []
    dall = []
    rall = []
    zall = []
    call = []
    print("正在抓取number,请稍候".center(scale // 2, '-'))
    start = time.perf_counter()
    for i in range(len(aidsall)):
        aa = '*' * (i//5)
        b = '-' * ((len(aidsall) - i)//5)
        c = (i / len(aidsall)) * 100
        urlbase = "http://comet.blog.sina.com.cn/api?maintype=num&uid=475b3d56&aids="
        a = getHTMLText(urlbase+aidsall[i])
        b1 = re.findall(r'"f":(\d+)', a)#收藏
        b2 = re.findall(r'"d":(\d+)', a)#喜欢
        b3 = re.findall(r'"r":(\d+)', a)#阅读
        b4 = re.findall(r'"z":(\d+)', a)#转载
        b5 = re.findall(r'"c":(\d+)', a)#评论
        if b1!= []:
            fall.append(int(''.join(b1)))
        else:
            fall.append('NaN')
            print('抓取number信息有遗漏，请在网络良好的情况下运行。'.center(scale // 2, '-'))
        if b2!=[]:
            dall.append(int(''.join(b2)))
        else:
            dall.append('NaN')
            # print('抓取信息有遗漏，请在网络良好的情况下运行。'.center(scale // 2, '-'))
        if b3!=[]:
            rall.append(int(''.join(b3)))
        else:
            rall.append('NaN')
            # print('抓取信息有遗漏，请在网络良好的情况下运行。'.center(scale // 2, '-'))
        if b4!=[]:
            zall.append(int(''.join(b4)))
        else:
            zall.append('NaN')
            # print('抓取信息有遗漏，请在网络良好的情况下运行。'.center(scale // 2, '-'))
        if b5!=[]:
            call.append(int(''.join(b5)))
        else:
            call.append('NaN')
            # print('抓取信息有遗漏，请在网络良好的情况下运行。'.center(scale // 2, '-'))
        # fall.append(int(float(b1[0])))
        # dall.append(int(float(b2[0])))
        # rall.append(int(float(b3[0])))
        # zall.append(int(float(b4[0])))
        # call.append(int(float(b5[0])))
        dur = time.perf_counter() - start
        print("\r{:^3.0f}%[{}->{}]{:.2f}s".format(c, aa, b, dur), end='')
    # print(fall,"\n",dall,"\n",rall,"\n",zall,"\n",call)
    return fall,dall,rall,zall,call
 
#调用函数实现相应功能。将爬取数据存入csv文件和数据库中。
def main():
    scale = 80
    start = time.perf_counter()
    depth =6
    hrefall = gethref(depth)
    textnameall, textall, aidsall = gettext(hrefall)
    fall, dall, rall, zall, call = getnumber(aidsall)
    try:
        print('\n'+"正在生成DataFrame格式,请稍候".center(scale // 2, '-'))
        pf = pd.DataFrame({"Textname":textnameall,"Text":textall,"href":hrefall,"收藏数":fall,"喜欢数":dall,"阅读数":rall,"转载数":zall,"评论数":call})
        pf.index = pf.index + 1
        print("正在存储csv文件,请稍候".center(scale // 2, '-'))
        pf.to_csv("blog_info2.csv",encoding="utf-8")
        print("总用时:{}".format(time.perf_counter()-start))
        print("正在将数据存入数据库,请稍候".center(scale // 2, '-'))
        connect = create_engine("mysql+pymysql://root:lst0916@localhost:3306/infoblog")
        pd.io.sql.to_sql(pf,'infoblog',connect,schema = "infoblog",if_exists = 'replace',index = False)
        print('数据爬取已完成！'.center(scale // 2, '-'))
    except:
        print('抓取信息有遗漏，请在网络良好的情况下运行。'.center(scale // 2, '-'))
if __name__ == '__main__':
    main()

代码有点长，其实分开来看还是比较简单，文章整体部分定义了四个函数方法，然后加一个main（），在写代码前，咱们还是明确爬取信息大致需要几个功能，然后分别定义函数，实现功能。这样思路会比较清晰。另外，由于笔者的编程能力不够强，所以我会在创建一个lianxi.py，用来练练比较陌生的函数方法，写完之后再腾到总文件中。

结果截图：

定义的函数功能能够比较容易的看懂，主要要说明以下几点：

1.计时器（这个方法是在嵩天老师的课上学的）：笔者在gettext(),getnumber()方法中分别加入一个计时器，相当于一个进度条，这样爬取信息的时候能够直观的看到爬取的进度，当然也能够看出来网络（用校园网的同学注意了，咳咳咳）的快慢，除此之外，网络问题也会导致你中间爬取的信息会有丢失，这点我在生成dataframe格式的时候很痛苦，因为少数据的话会生成失败。

2.看代码会发现我的try,except用的比较多，就是为了解决中间爬取的时候数据丢失的问题，丢失的数据用“NaN"表示，这样无论丢不丢失，都能生成datafame数据格式，使得代码的健壮性比较好，虽然这样增加了额外的判断，导致爬取时间延长，但还是很有必要的，毕竟我用校园网在不加try,except的时候没几次爬取成功的。

3.将数据存入数据库，说实话，笔者之前模糊的了解这一方法:create_engine()，但对数据库了解的比较少，因为上学期的数据库实在是没学好，期末的时候才看看书，sql sever也没用过几次，虽然数据库的命令比较简单，但还是忘记了，哈哈哈哈，笔者这个小垃圾，后来又搜了搜资料，看了看数据库的书，当是又一次预习了，哈哈哈哈，然后把sql server 卸载了，下了一个mysql,终于把create_engine()方法弄清楚了，把数导入数据库后，查看数据时，select * from infoblog 就ok。下面是create_engine():


from sqlalchemy import create_engine
import pymysql
connect = create_engine("mysql+pymysql://root:lst0916@localhost:3306/infoblog")
    pd.io.sql.to_sql(pf,'infoblog',connect,schema = "infoblog",if_exists = 'replace')
 
#con = pymysql.connect(host=localhost, user=username, password=password, database=dbname, #charset='utf8',use_unicode=True)
# dbinfo = {
    #     'uesr':'root',
    #     'host':'@localhost:3306',
    #     'password':'lst0916',
    #     'database':'infoblog',
    #     'charset':'utf8',
    #     'use_unicode':True
    # }

其中，pf是数据的dataframe结构，create_engine（）中的参数和pymysql.connect()中的参数是一致的，笔者的数据库dbinfo信息如上表，各位可以查看自己的数据库中的信息，按参数顺序写上。

4.主要问题以及优化点：

（1）爬取每篇博客的文章名和文章内容是比较慢的，抛开网络的问题，从代码角度来说笔者先是创建了BeautifulSoup对象，然后在其中进行了两次查找（一次是查找文章名，一次是爬取文章内容），最后把他们append对应的数组中。所以优化的时候可以合成一次查找。

（2）爬取的时候如果不加try expect 的话，在爬取javascript渲染的页面的时候特别容易漏掉信息，所以可能会报''.join()方法的错误，这是因为如果爬取信息遗漏的话join（）中的参数为空，所以报错，而傻傻的笔者在之前运行的时候有时候报错，有时候不报错，还以为是''.join()方不稳定，所以，又用了int()方法，没想到还是时不时的出错，直接tm怀疑人生，tmd这么多方法不稳定，pycharm干啥吃的，哈哈哈哈，结果有一次dataframe报错的时候我忽然明白了，原来罪魁祸首是：校园网！好家伙，这下恍然大明白，写代码算着上课一共花了两天，光调这个bug用了一天半。最后，还是要好好谢谢校园网的，让我在爬虫方面得到了更多的经验，也增加了我代码的健壮性。

（3）寻找js文件，爬取javascript内容作为一个难点来说，这个确实得好好了解的，首先找到开发者工具------>network------>JS,找到对应的js文件，再爬取其中的数据。另一种方法不找js文件，是要爬取渲染后的页面，实际上就是用浏览器内核做一个虚拟的浏览器，具体实现是对selenium库函数方法使用，笔者之后会尝试将scrapy+selenium爬取数据的过程写出来。

小白成长记。。。。。。

Together we face the challenges of the future！

Smile happily every day！

声明：本文内容由网友自发贡献，转载请注明出处：【wpsshop博客】

python requests爬虫——爬取李开复博客信息（包括javascript部分信息）_李开复的博客 爬虫

python requests爬虫——爬取李开复博客信息（包括javascript部分信息）_李开复的博客爬虫