赞
踩
浏览器地址栏搜索 刘若英
https://www.baidu.com/s?word=刘若英&tn=71069079_1_hao_pg&ie=utf-8
但是复制到文件中是这样的:
https://www.baidu.com/s?word=%E5%88%98%E8%8B%A5%E8%8B%B1&tn=71069079_1_hao_pg&ie=utf-8
这是因为浏览器对中文请求参数进行了转码
用代码访问网站所发的请求中如果有中文也必须是转码之后的。这里需要用到urllib.parse.urlencode 方法。
这个方法的作用就是将字典里面所有的键值转化为query-string格式(key=value&key=value),并且将中文转码
import urllib.request
import urllib.parse
import os
url = ‘http://www.baidu.com/s?’
wd = input('请输入要搜索关键字: ')
“”"
word=刘若英&tn=71069079_1_hao_pg&ie=utf-8
“”"
data = {
‘word’: wd,
‘tn’: ‘71069079_1_hao_pg’,
‘ie’: ‘utf-8’
}
query_string = urllib.parse.urlencode(data)
url += query_string
response = urllib.request.urlopen(url=url)
filename = wd + ‘.html’
dirname = ‘./html’
if not os.path.exists(dirname):
os.mkdir(dirname)
filepath = dirname + ‘/’ + filename
with open (filepath, ‘w’, encoding=‘utf8’) as fp:
fp.write(response.read().decode(‘utf8’))
作者:米酒真香
链接:https://www.jianshu.com/p/cfb411ba7167
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。