当前位置:   article > 正文

【Python从入门到进阶】23.urllib使用post请求百度翻译_bduss

bduss

接上篇《22、urllib库基本使用
上一篇我们介绍了实现爬虫的必备基础——urllib库的学习。本篇我们来使用urllib实现百度翻译的效果。

一、在线翻译服务

当我们需要翻译一段文字时,百度翻译是一个很常用的工具。它是由百度公司开发的一款在线翻译服务,可以提供多语种互译:

在许多场景中,我们需要编写程序来获取并使用在线翻译服务。例如,如果我们正在开发一个Web应用程序,需要编写代码来翻译用户输入的文本。在这种情况下,我们可以使用Python编写代码来访问百度翻译API,并在应用程序中使用它提供翻译服务。

二、如何找到百度翻译API

我们输入一个英文字母,点击百度翻译的“翻译”按钮,就给我们再右侧框输出了一个翻译后的中文,这中间是调用了百度后台的翻译API的,其实也就是一个http服务:

我们怎么去找到它呢?我们刷新百度翻译页面,F12打开浏览器开发者模式,输入英文并点击翻译后,可以看到右侧开发者工具“网络”面板请求了很多http服务:

那么我们就可以在网络请求的列表中,尝试找到翻译的API接口。首先排除所有“gif”图片请求,再剩下的请求中寻找:我们可以注意到,一个类似“v2transapi”的接口,参数是from=en向to=zh,这里我们可以分析出来,接口的名字应该是“trans(翻译)”的api,并且是version2.0版,参数是从英文(en)来,到中文(zh)去:

那我们点开这个请求,先看看他的Response中有没有我们的结果“羊”:

这里我们看到返回过来的中文都变成了Unicode编码字符(\u7f8a),我们可以通过“Preview”预览选项卡查看转义后的结果:

可以看到就是我们之前请求的sheep的翻译结果,证明这个接口就是我们需要的。
我们回到“Headers”选项卡,可以从这里分析出百度翻译的API接口结构:

这里可以看到请求的地址是“https://fanyi.baidu.com/v2transapi?from=en&to=zh”,请求类型是post请求。
然后请求的参数如下:

这里“Query String Parameters”是拼接在url的后面的,而“Form Data”就是我们post请求的body,它不是拼接在url后面的,而是包装在我们的request请求体中的。

三、模拟请求百度API

我们新建一个“urllib百度翻译”的python程序文件,根据开发者工具分析的地址、请求头的User-Agent、Content-Type、Cookie和post需要的参数准备好:

  1. # 翻译服务的API地址
  2. url = "https://fanyi.baidu.com/v2transapi"
  3. headers = {
  4.     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.66 Safari/537.36',
  5.     'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8'
  6.     'Cookie': 'BIDUPSID=9ACAA09E33A14A90B3A1F09AF6429144; PSTM=1680336365; BAIDUID=7F32D86E5969CAB87D254D58C3AC33C9:FG=1; BDUSS=2ZwcFlrbENDdWEyTGY5SWQtYXRrck11YW0wNFlMWmNHckgtcVVua09qZHFrVTlrRVFBQUFBJCQAAAAAAAAAAAEAAAABHeYpz7jT6sLk08TJvQAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAGoEKGRqBChkN; BDUSS_BFESS=2ZwcFlrbENDdWEyTGY5SWQtYXRrck11YW0wNFlMWmNHckgtcVVua09qZHFrVTlrRVFBQUFBJCQAAAAAAAAAAAEAAAABHeYpz7jT6sLk08TJvQAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAGoEKGRqBChkN; H_PS_PSSID=; BDORZ=FFFB88E999055A3F8A630C64834BD6D0; REALTIME_TRANS_SWITCH=1; FANYI_WORD_SWITCH=1; HISTORY_SWITCH=1; SOUND_SPD_SWITCH=1; SOUND_PREFER_SWITCH=1; Hm_lvt_64ecd82404c51e03dc91cb9e8c025574=1685857756; Hm_lpvt_64ecd82404c51e03dc91cb9e8c025574=1685857756; delPer=0; PSINO=1; BAIDUID_BFESS=7F32D86E5969CAB87D254D58C3AC33C9:FG=1; BA_HECTOR=200120a12h2081810kala0et1i7ocff1m; ZFY=hACYb0b9dzIiQbN6jcQ1UUbl7owC3XLFvJmpgMqN:Axk:C; BCLID=8956021043898709769; BCLID_BFESS=8956021043898709769; BDSFRCVID=tB_OJexroG0ZmSbfqaZUuxPRHuweG7bTDYrEOwXPsp3LGJLVFakFEG0Pts1-dEu-S2OOogKKBeOTHn0F_2uxOjjg8UtVJeC6EG0Ptf8g0M5; BDSFRCVID_BFESS=tB_OJexroG0ZmSbfqaZUuxPRHuweG7bTDYrEOwXPsp3LGJLVFakFEG0Pts1-dEu-S2OOogKKBeOTHn0F_2uxOjjg8UtVJeC6EG0Ptf8g0M5; H_BDCLCKID_SF=tRAOoC_-tDvDqTrP-trf5DCShUFsWJvWB2Q-XPoO3KJADfOPbRLKKfk02b3NBnQf5mkf3fbgy4op8P3y0bb2DUA1y4vp0toW3eTxoUJ2-KDVeh5Gqq-KXU4ebPRi3tQ9QgbXopQ7tt5W8ncFbT7l5hKpbt-q0x-jLTnhVn0MBCK0hD89DjKKD6PVKgTa54cbb4o2WbCQ-n0M8pcN2b5oQT8lhJbaKJoKfCOtXUJ4WP5beq06-lOUWJDkXpJvQnJjt2JxaqRC3JjOsl5jDh3MKToDb-oteltHB2Oy0hvc0J5cShnkDMjrDRLbXU6BK5vPbNcZ0l8K3l02V-bIe-t2XjQhDH-OJ6DHtJ3aQ5rtKRTffjrnhPF3Dlo3XP6-hnjy3bRzWxOt5tjHEtbG2h3CybLWbttf5q3Ry6r42-39LPO2hpRjyxv4Q4_fQ4oxJpOJ-bCL0p5aHx8K8p7vbURvL4Lg3-7XJU5dtjTO2bc_5KnlfMQ_bf--QfbQ0hOhqP-jBRIEoC8ytC_KhCvPKITD-tFO5eT22-usbmcT2hcHMPoosIJLhqbDbR__jUQthpONWTTf0l05KfbUotoHXnJi0btQDPvxBf7p3D6WKq5TtUJMqIDzbMohqqJXXPnyKMni0DT9-pn8tpQrh459XP68bTkA5bjZKxtq3mkjbPbDfn028DKuDj-WDjjXDGRabK6aKC5bL6rJabC3fho3XU6q2bDeQN3z2lJa5j6Khf5aMUJCO-56bftb-l0vWq54WbbvLT7johRTWqR4sRjcQxonDh83KNLLKUQtHGAH2h7O5hvvER5O3M7_DMKmDloOW-TB5bbPLUQF5l8-sq0x0bOte-bQXH_E5bj2qRu8_K0M3e; H_BDCLCKID_SF_BFESS=tRAOoC_-tDvDqTrP-trf5DCShUFsWJvWB2Q-XPoO3KJADfOPbRLKKfk02b3NBnQf5mkf3fbgy4op8P3y0bb2DUA1y4vp0toW3eTxoUJ2-KDVeh5Gqq-KXU4ebPRi3tQ9QgbXopQ7tt5W8ncFbT7l5hKpbt-q0x-jLTnhVn0MBCK0hD89DjKKD6PVKgTa54cbb4o2WbCQ-n0M8pcN2b5oQT8lhJbaKJoKfCOtXUJ4WP5beq06-lOUWJDkXpJvQnJjt2JxaqRC3JjOsl5jDh3MKToDb-oteltHB2Oy0hvc0J5cShnkDMjrDRLbXU6BK5vPbNcZ0l8K3l02V-bIe-t2XjQhDH-OJ6DHtJ3aQ5rtKRTffjrnhPF3Dlo3XP6-hnjy3bRzWxOt5tjHEtbG2h3CybLWbttf5q3Ry6r42-39LPO2hpRjyxv4Q4_fQ4oxJpOJ-bCL0p5aHx8K8p7vbURvL4Lg3-7XJU5dtjTO2bc_5KnlfMQ_bf--QfbQ0hOhqP-jBRIEoC8ytC_KhCvPKITD-tFO5eT22-usbmcT2hcHMPoosIJLhqbDbR__jUQthpONWTTf0l05KfbUotoHXnJi0btQDPvxBf7p3D6WKq5TtUJMqIDzbMohqqJXXPnyKMni0DT9-pn8tpQrh459XP68bTkA5bjZKxtq3mkjbPbDfn028DKuDj-WDjjXDGRabK6aKC5bL6rJabC3fho3XU6q2bDeQN3z2lJa5j6Khf5aMUJCO-56bftb-l0vWq54WbbvLT7johRTWqR4sRjcQxonDh83KNLLKUQtHGAH2h7O5hvvER5O3M7_DMKmDloOW-TB5bbPLUQF5l8-sq0x0bOte-bQXH_E5bj2qRu8_K0M3e; ab_sr=1.0.1_YTA3YzI0NmQzNGI0MzNhM2ZhOWIxMzQ2MGNmNmQ3ZTk0NTliNGNkOWUzOTFmMzk2YmExOTFmMDhjNTgzZGE1MGUzZWI2ZDNlNjFjYWUyMjYxMDA5YjY1YTdjYmNlZGY1MGI2YTMwMGZiN2JkNjNhZDBmODMxNmNmOTI0N2YwMmJhMjQyOTU4MDA0NmIyNzZmNjhhODMwNGQyZWRjZDAwOWQ2ZGY2MmYwMDdhOThhYjM4MTEyMmE5Nzg5ZWJlZmE0'
  7. }
  8. data = {
  9.     'from': 'en', # 要翻译的语言(英文)
  10.     'to': 'zh', # 翻译后的语言(中文)
  11.     'query': 'sheep', # 要翻译的内容
  12.     'transtype': 'translang', # 翻译类型
  13.     'simple_means_flag': 3, # 简单均值标志
  14.     'sign': 731658.1034555, # 签名
  15.     'token':'9e981a17003e242b8e821ee917b020bd', # 令牌
  16.     'domain': 'common', # 领域:公共部分
  17.     'ts': 1685858937854 # 时间戳
  18. }

然后将post请求的参数进行编码,使用urllib.request.Request方法构造一个request对象:

  1. # post请求的参数,必须要进行编码
  2. data = urllib.parse.urlencode(data).encode('utf-8')
  3. # post请求的参数,是不会拼接在url后面的,而是需要放在请求对象的指定参数中
  4. request = urllib.request.Request(url=url,data=data,headers=headers)

然后就模拟浏览器向服务器发送请求:

  1. # 模拟浏览器向服务器发送请求
  2. reponse = urllib.request.urlopen(request)
  3. # 获取响应的数据
  4. content = reponse.read().decode('utf-8')
  5. print(content)
  6. # 将字符串转换为json对象
  7. import json
  8. obj = json.loads(content)
  9. print(obj)

结果:

完整代码:

  1. # _*_ coding : utf-8 _*_
  2. # @Time : 2023-06-04 14:21
  3. # @Author : 光仔December
  4. # @File : urllib百度翻译
  5. # @Project : Python_Projects
  6. import urllib.parse
  7. import urllib.request
  8.  
  9. # 翻译服务的API地址
  10. url = "https://fanyi.baidu.com/v2transapi"
  11. headers = {
  12.     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.66 Safari/537.36',
  13.     'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
  14.     'Cookie': 'BIDUPSID=9ACAA09E33A14A90B3A1F09AF6429144; PSTM=1680336365; BAIDUID=7F32D86E5969CAB87D254D58C3AC33C9:FG=1; BDUSS=2ZwcFlrbENDdWEyTGY5SWQtYXRrck11YW0wNFlMWmNHckgtcVVua09qZHFrVTlrRVFBQUFBJCQAAAAAAAAAAAEAAAABHeYpz7jT6sLk08TJvQAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAGoEKGRqBChkN; BDUSS_BFESS=2ZwcFlrbENDdWEyTGY5SWQtYXRrck11YW0wNFlMWmNHckgtcVVua09qZHFrVTlrRVFBQUFBJCQAAAAAAAAAAAEAAAABHeYpz7jT6sLk08TJvQAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAGoEKGRqBChkN; H_PS_PSSID=; BDORZ=FFFB88E999055A3F8A630C64834BD6D0; REALTIME_TRANS_SWITCH=1; FANYI_WORD_SWITCH=1; HISTORY_SWITCH=1; SOUND_SPD_SWITCH=1; SOUND_PREFER_SWITCH=1; Hm_lvt_64ecd82404c51e03dc91cb9e8c025574=1685857756; Hm_lpvt_64ecd82404c51e03dc91cb9e8c025574=1685857756; delPer=0; PSINO=1; BAIDUID_BFESS=7F32D86E5969CAB87D254D58C3AC33C9:FG=1; BA_HECTOR=200120a12h2081810kala0et1i7ocff1m; ZFY=hACYb0b9dzIiQbN6jcQ1UUbl7owC3XLFvJmpgMqN:Axk:C; BCLID=8956021043898709769; BCLID_BFESS=8956021043898709769; BDSFRCVID=tB_OJexroG0ZmSbfqaZUuxPRHuweG7bTDYrEOwXPsp3LGJLVFakFEG0Pts1-dEu-S2OOogKKBeOTHn0F_2uxOjjg8UtVJeC6EG0Ptf8g0M5; BDSFRCVID_BFESS=tB_OJexroG0ZmSbfqaZUuxPRHuweG7bTDYrEOwXPsp3LGJLVFakFEG0Pts1-dEu-S2OOogKKBeOTHn0F_2uxOjjg8UtVJeC6EG0Ptf8g0M5; H_BDCLCKID_SF=tRAOoC_-tDvDqTrP-trf5DCShUFsWJvWB2Q-XPoO3KJADfOPbRLKKfk02b3NBnQf5mkf3fbgy4op8P3y0bb2DUA1y4vp0toW3eTxoUJ2-KDVeh5Gqq-KXU4ebPRi3tQ9QgbXopQ7tt5W8ncFbT7l5hKpbt-q0x-jLTnhVn0MBCK0hD89DjKKD6PVKgTa54cbb4o2WbCQ-n0M8pcN2b5oQT8lhJbaKJoKfCOtXUJ4WP5beq06-lOUWJDkXpJvQnJjt2JxaqRC3JjOsl5jDh3MKToDb-oteltHB2Oy0hvc0J5cShnkDMjrDRLbXU6BK5vPbNcZ0l8K3l02V-bIe-t2XjQhDH-OJ6DHtJ3aQ5rtKRTffjrnhPF3Dlo3XP6-hnjy3bRzWxOt5tjHEtbG2h3CybLWbttf5q3Ry6r42-39LPO2hpRjyxv4Q4_fQ4oxJpOJ-bCL0p5aHx8K8p7vbURvL4Lg3-7XJU5dtjTO2bc_5KnlfMQ_bf--QfbQ0hOhqP-jBRIEoC8ytC_KhCvPKITD-tFO5eT22-usbmcT2hcHMPoosIJLhqbDbR__jUQthpONWTTf0l05KfbUotoHXnJi0btQDPvxBf7p3D6WKq5TtUJMqIDzbMohqqJXXPnyKMni0DT9-pn8tpQrh459XP68bTkA5bjZKxtq3mkjbPbDfn028DKuDj-WDjjXDGRabK6aKC5bL6rJabC3fho3XU6q2bDeQN3z2lJa5j6Khf5aMUJCO-56bftb-l0vWq54WbbvLT7johRTWqR4sRjcQxonDh83KNLLKUQtHGAH2h7O5hvvER5O3M7_DMKmDloOW-TB5bbPLUQF5l8-sq0x0bOte-bQXH_E5bj2qRu8_K0M3e; H_BDCLCKID_SF_BFESS=tRAOoC_-tDvDqTrP-trf5DCShUFsWJvWB2Q-XPoO3KJADfOPbRLKKfk02b3NBnQf5mkf3fbgy4op8P3y0bb2DUA1y4vp0toW3eTxoUJ2-KDVeh5Gqq-KXU4ebPRi3tQ9QgbXopQ7tt5W8ncFbT7l5hKpbt-q0x-jLTnhVn0MBCK0hD89DjKKD6PVKgTa54cbb4o2WbCQ-n0M8pcN2b5oQT8lhJbaKJoKfCOtXUJ4WP5beq06-lOUWJDkXpJvQnJjt2JxaqRC3JjOsl5jDh3MKToDb-oteltHB2Oy0hvc0J5cShnkDMjrDRLbXU6BK5vPbNcZ0l8K3l02V-bIe-t2XjQhDH-OJ6DHtJ3aQ5rtKRTffjrnhPF3Dlo3XP6-hnjy3bRzWxOt5tjHEtbG2h3CybLWbttf5q3Ry6r42-39LPO2hpRjyxv4Q4_fQ4oxJpOJ-bCL0p5aHx8K8p7vbURvL4Lg3-7XJU5dtjTO2bc_5KnlfMQ_bf--QfbQ0hOhqP-jBRIEoC8ytC_KhCvPKITD-tFO5eT22-usbmcT2hcHMPoosIJLhqbDbR__jUQthpONWTTf0l05KfbUotoHXnJi0btQDPvxBf7p3D6WKq5TtUJMqIDzbMohqqJXXPnyKMni0DT9-pn8tpQrh459XP68bTkA5bjZKxtq3mkjbPbDfn028DKuDj-WDjjXDGRabK6aKC5bL6rJabC3fho3XU6q2bDeQN3z2lJa5j6Khf5aMUJCO-56bftb-l0vWq54WbbvLT7johRTWqR4sRjcQxonDh83KNLLKUQtHGAH2h7O5hvvER5O3M7_DMKmDloOW-TB5bbPLUQF5l8-sq0x0bOte-bQXH_E5bj2qRu8_K0M3e; ab_sr=1.0.1_YTA3YzI0NmQzNGI0MzNhM2ZhOWIxMzQ2MGNmNmQ3ZTk0NTliNGNkOWUzOTFmMzk2YmExOTFmMDhjNTgzZGE1MGUzZWI2ZDNlNjFjYWUyMjYxMDA5YjY1YTdjYmNlZGY1MGI2YTMwMGZiN2JkNjNhZDBmODMxNmNmOTI0N2YwMmJhMjQyOTU4MDA0NmIyNzZmNjhhODMwNGQyZWRjZDAwOWQ2ZGY2MmYwMDdhOThhYjM4MTEyMmE5Nzg5ZWJlZmE0'
  15. }
  16. data = {
  17.     'from': 'en', # 要翻译的语言(英文)
  18.     'to': 'zh', # 翻译后的语言(中文)
  19.     'query': 'sheep', # 要翻译的内容
  20.     'transtype': 'translang', # 翻译类型
  21.     'simple_means_flag': 3, # 简单均值标志
  22.     'sign': 731658.1034555, # 签名
  23.     'token':'9e981a17003e242b8e821ee917b020bd', # 令牌
  24.     'domain': 'common', # 领域:公共部分
  25.     'ts': 1685858937854 # 时间戳
  26. }
  27. # post请求的参数,必须要进行编码
  28. data = urllib.parse.urlencode(data).encode('utf-8')
  29. # post请求的参数,是不会拼接在url后面的,而是需要放在请求对象的指定参数中
  30. request = urllib.request.Request(url=url,data=data,headers=headers)
  31. # 模拟浏览器向服务器发送请求
  32. reponse = urllib.request.urlopen(request)
  33. # 获取响应的数据
  34. content = reponse.read().decode('utf-8')
  35. # 将字符串转换为json对象
  36. import json
  37. obj = json.loads(content)
  38. print(obj)

四、POST请求的特点

在Python的urllib编程中,POST请求是与GET请求相对应的一种HTTP请求方法。与GET请求不同,POST请求将请求参数作为请求体发送给服务器,而不是作为URL的一部分发送。它有几个特点:

1、POST请求通常用于向服务器提交数据,例如表单数据、文件上传等。
2、POST请求的请求体可以包含大量的数据,而不会像GET请求那样限制请求URL的长度。
3、POST请求通常需要在请求头中指定Content-Type来描述请求体的类型,例如application/x-www-form-urlencoded或multipart/form-data等。
4、在Python的urllib库中,发送POST请求需要使用urllib.request模块的urlopen()函数,并传入一个Request对象,其中包含了POST请求的URL和数据参数。

转载请注明出处:https://blog.csdn.net/acmman/article/details/131032235
参考:尚硅谷Python爬虫教程小白零基础速通教学视频

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop】
推荐阅读
相关标签
  

闽ICP备14008679号