当前位置:   article > 正文

怎么测试python爬虫数据_python我的一个爬虫和测试

盲潞卢氓聟卢莽陆聭氓庐聣氓陇聡

一、

使用request库的get()函数访问360搜索网页20次并且打印返回状态,text内容,计算text()属性和content()属性所返回网页内容的长度。

对360搜索主页进行爬虫:

利用request库的get函数访问google 20次,输入代码为:

import requests

wan="https://www.so.com/"

def pac(wan):

print("第",i+1,"次访问")

r=requests.get(wan,timeout=30)

r.raise_for_status()

print("text编码方式为",r.encoding)

print("网络状态码为:",r.status_code)

print("text属性:",r.text)

print("content属性:",r.content)

return r.text

for i in range(20):

print(pac(wan))

由于结果太长,这里将代码改为打印text属性和content属性的长度后展示最后一次访问的结果,代码改动:

print("text属性长度:",len(r.text))

print("content属性长度:",len(r.content))

第 20 次访问

text编码方式为 ISO-8859-1

网络状态码为: 200

text属性长度: 5294

content属性长度: 5294

360æç´¢

click.gif?pro=so&pid=home&mod=noscriptpage

二、

这是一个简单的html页面,请保持为字符串,完成后面的计算要求。

a.打印head标签内容和你的学号后两位

b 获取body标签内容

c 获取id为first的标签对象

d 获取并打印html页面中的中文字符

html为:

1

2

3

4

5

6

7

8

9

菜鸟教程(runoob.com)

10

11

12

13

14

15 我的第一个标题学号25

16

17

我的第一个段落。

18

19

20

21

22

23

24

25

row 1, cell 1

26

27

row 1, cell 2

28

29

30

31

32

33

row 2, cell 1

34

35

row 2, cell 2

36

37

38

39

40

41

菜鸟教程运行结果:

71eed99c0c51b74da3b5599ebbdf67bd.png

相关计算代码:

from bs4 import BeautifulSoup

import re

soup=BeautifulSoup('''

菜鸟教程(runoob.com)

我的第一标题

我的第一个段落。

row 1, cell 1row 1, cell 2
row 2, cell 1row 2, cell 2
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/1004839
推荐阅读
相关标签
  

闽ICP备14008679号