当前位置:   article > 正文

python金融分析小知识(13)——Jupyter Notebook中一行代码实现页面源代码的获取_jupyter怎么查看保存的网页源代码

jupyter怎么查看保存的网页源代码

Hello 大家好,我是一名新来的金融领域打工人,日常分享一些python知识,都是自己在学习生活中遇到的一些问题,分享给大家,希望对大家有一定的帮助!

上一篇文章讲了讲如何通过爬虫获取页面源代码,我们可以很方便地使用postman工具来进行页面源代码地获取:

  1. ## postman工具的使用
  2. import requests
  3. url = "https://travel.qunar.com/p-cs299782-xiamen-jingdian"
  4. payload={}
  5. headers = {
  6. 'authority': 'travel.qunar.com',
  7. 'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
  8. 'accept-language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6,zh-TW;q=0.5',
  9. 'cache-control': 'max-age=0',
  10. 'cookie': 'QN1=0000918034fc4118d820961d; QN269=65706FF0C82711EC859AFA163E515513; _i=ueHd8LkXXXV0bDSA-9fQKGvqE11X; fid=e0ca98b5-69ba-49ae-af45-eb75ae47171f; viewdist=299782-6; uld=1-299782-6-1652167178; JSESSIONID=07447CB2149341056CEBB815F1EDF0F6; qunar-assist={%22version%22:%2220211215173359.925%22%2C%22show%22:false%2C%22audio%22:false%2C%22speed%22:%22middle%22%2C%22zomm%22:1%2C%22cursor%22:false%2C%22pointer%22:false%2C%22bigtext%22:false%2C%22overead%22:false%2C%22readscreen%22:false%2C%22theme%22:%22default%22}; QN205=organic; QN277=organic; QN267=08897278013e594d4; csrfToken=pG8P5YxlawgK4xLy5gqboMfjzc3PL8f6; ariaDefaultTheme=undefined; _vi=ZVM5OVJRff5-WqKRSR8z-1-5wsxUZFKe3HjjzY36FjM2dAB9Kid_TTlErMLyxiV_LRIKgmGxb1f112lFh2V3k5KmcOWUWaXPhZABjEAJYERJXu6lED-BVDqGdxMi6Cpadvxt5kTHWmL-GrSJVgDkNAHwEu1STc_ZoDyrwh6qiywq; Hm_lvt_c56a2b5278263aa647778d304009eafc=1651283208,1651290050,1651291263,1652167180; Hm_lpvt_c56a2b5278263aa647778d304009eafc=1652167180; QN271=749e150b-d9b2-49a3-960a-7fa27373fbfb; SECKEY_ABVK=LG1DqJApvTrEf9k99/qQFt4OsSw6VpB+noTf6BSInqQ%3D; BMAP_SECKEY=H2dLlEk7yFbg2TroK6omHBgP0C5Z8rMsdadN13glWW_rmOYweLnZ20x1TWwCuwF_fS_aLBiPAVFI2Eh4KJKMatp-gktEUhpMzj_VFo_15mVV-TTyqV2tV6Q-rw6Fe0Y4fTbjUCcMrevzr_y8nlhxtFjgLVgD9kStuYoAs3HtEVcZwevbYDQHNfSSiMcsyq-D; JSESSIONID=A5E2B3B84C33240FFD867ABCE81BB2AA; uld=1-299782-7-1652167254; viewdist=299782-7',
  11. 'sec-ch-ua': '" Not A;Brand";v="99", "Chromium";v="101", "Microsoft Edge";v="101"',
  12. 'sec-ch-ua-mobile': '?0',
  13. 'sec-ch-ua-platform': '"Windows"',
  14. 'sec-fetch-dest': 'document',
  15. 'sec-fetch-mode': 'navigate',
  16. 'sec-fetch-site': 'none',
  17. 'sec-fetch-user': '?1',
  18. 'upgrade-insecure-requests': '1',
  19. 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36 Edg/101.0.1210.39'
  20. }
  21. response = requests.request("GET", url, headers=headers, data=payload)
  22. result = response.text
  23. print(result)

这一篇文章给大家推荐一个非常简单的获取页面源代码的方法,可以实现在Jupyter Notebook使用一行代码就可以获取网页的页面源代码,话不多说我们直接上代码:

  1. %load URL
  2. #URL:URL为指定网站的地址

这里我们选取一个网址,然后将它的URL输入,如下图所示:

 然后我们运行代码,让我们来看看获得的结果:

续上图:

 我们可以和网页本身的页面源代码对比一下:

 

可以看出通过%load所获得的内容和页面源代码是对的上的~

好啦,今天的文章就分享到这里啦! 

声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号