当前位置:   article > 正文

[转载]urllib.parse.urlencode转换get请求参数(resquest中带中文的情况)

[转载]urllib.parse.urlencode转换get请求参数(resquest中带中文的情况)

浏览器地址栏搜索 刘若英
https://www.baidu.com/s?word=刘若英&tn=71069079_1_hao_pg&ie=utf-8
但是复制到文件中是这样的:
https://www.baidu.com/s?word=%E5%88%98%E8%8B%A5%E8%8B%B1&tn=71069079_1_hao_pg&ie=utf-8

这是因为浏览器对中文请求参数进行了转码
用代码访问网站所发的请求中如果有中文也必须是转码之后的。这里需要用到urllib.parse.urlencode 方法。
这个方法的作用就是将字典里面所有的键值转化为query-string格式(key=value&key=value),并且将中文转码

import urllib.request
import urllib.parse
import os

url = ‘http://www.baidu.com/s?’

wd = input('请输入要搜索关键字: ')
“”"
word=刘若英&tn=71069079_1_hao_pg&ie=utf-8
“”"
data = {
‘word’: wd,
‘tn’: ‘71069079_1_hao_pg’,
‘ie’: ‘utf-8’
}

query_string = urllib.parse.urlencode(data)

拼接获取完整url

url += query_string

发起请求,获取响应

response = urllib.request.urlopen(url=url)

filename = wd + ‘.html’

dirname = ‘./html’

if not os.path.exists(dirname):
os.mkdir(dirname)

filepath = dirname + ‘/’ + filename

以二进制写入文件

with open(filepath, ‘wb’) as fp:

fp.write(response.read())

或者以utf8编码写入文件

with open (filepath, ‘w’, encoding=‘utf8’) as fp:
fp.write(response.read().decode(‘utf8’))

作者:米酒真香
链接:https://www.jianshu.com/p/cfb411ba7167
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号