当前位置:   article > 正文

practice之Python爬取有道翻译页面_爬取有道在线翻译网站,实现翻译的过程,输出爬取到的信息

爬取有道在线翻译网站,实现翻译的过程,输出爬取到的信息

1.获取需求

  1. import time
  2. import random
  3. import json
  4. from day1.tuozhan_all import post

2.定义MD5加密

  1. def md5_my(need_str):
  2. import hashlib
  3. #创建MD5对象
  4. md5_o = hashlib
  5. #需要有bytes作为参数
  6. #有str 转换为 bytes encode --> str.encode('utf-8')
  7. #有bytes转换为 str decode --> bytes.decode('utf-8')
  8. sign_bytes = need_str.encode('utf-8')
  9. print(type(sign_bytes))
  10. #更新MD5 object的值
  11. md5_o.update(sign_bytes)
  12. sign_str = md5_o.hexdigest()
  13. return sign_str

3.定义函数-根据需求,寻找网站,设置请求头信息并调用加密方法,

  1. def translate(kw):
  2. url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
  3. headers = {
  4. 'Accept': 'application/json, text/javascript, */*; q=0.01',
  5. #'Accept-Encoding': 'gzip, deflate',
  6. 'Accept-Language': 'zh-CN,zh;q=0.9',
  7. 'Connection': 'keep-alive',
  8. #'Content-Length': '204',
  9. 'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
  10. 'Cookie': 'OUTFOX_SEARCH_USER_ID=-1395794279@10.169.0.83; OUTFOX_SEARCH_USER_ID_NCOO=1353878353.3763409; JSESSIONID=aaagYp6Ma33V-5wnZG_uw; fanyi-ad-id=48707; fanyi-ad-closed=1; ___rl__test__cookies=1534352134401',
  11. 'Host': 'fanyi.youdao.com',
  12. 'Origin':' http://fanyi.youdao.com',
  13. 'Referer': 'http://fanyi.youdao.com/',
  14. 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64)AppleWebKit/537.36(KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
  15. 'X-Requested-With': 'XMLHttpRequest',
  16. }
  17. key - kw
  18. salt = int(time.time()*1000 + random.randint(0,10))
  19. print(salt)
  20. salt_str = str(salt)
  21. S = "fanyideskweb"
  22. D = "ebSeFb%=XZ%T[KZ)c(sy!"
  23. sign_str = S + key + salt_str + D
  24. # md5 加密的方法
  25. sign_md5_str = md5_my(sign_str)
  26. form = {
  27. 'i': key,
  28. 'from': 'AUTO',
  29. 'to': 'AUTO',
  30. 'smartresult': 'dict',
  31. 'client': 'fanyideskweb',
  32. 'salt': salt_str,
  33. 'sign': sign_md5_str,
  34. 'doctype': 'json',
  35. 'version': '2.1',
  36. 'keyfrom': 'fanyi.web',
  37. 'action': 'FY_BY_REALTIME',
  38. 'typoResult': 'false',
  39. }

4.获取及定位数据

  1. html_bytes = post(url,form,headers=headers)
  2. #将 json类型的字符串转换为字典格式
  3. res_dict = json.loads(html_bytes.decode('utf-8'))
  4. translate_res = res_dict['translateRequest'][0][0]['tgt']
  5. return translate_res

5.测试

  1. if __name__ == '__main__':
  2. ret = translate('青青河边草')
  3. print('青青河边草的翻译是:' + ret)

6.以上测试结果

  1. 1534352974499
  2. <class 'bytes'>
  3. 青青河边草的翻译是:Green river grass

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/代码探险家/article/detail/855655
推荐阅读
相关标签
  

闽ICP备14008679号