当前位置:   article > 正文

数据采集知识梳理_数据采集类接口,返回值,函数

数据采集类接口,返回值,函数

目录

 Python知识梳理

1.环境安装与验证

2.搭建与部署Pycharm

3.进行简单的写入练习及知识了解

爬虫知识梳理

1.进行网页图片采集

2.进行豆瓣网参数传递

3.进行豆瓣网多参数传递

4.拓展知识

​编辑

 Python知识梳理

1.环境安装与验证

安装Python环境,并去CMD里输入“Python”验证是否能正常进入环境

2.搭建与部署Pycharm

进入官网安装Pycharm,验证部署是否完成

3.进行简单的写入练习及知识了解

基本语法:了解Python的基本语法,包括变量、数据类型、条件语句、循环语句和函数定义等。

数据类型:Python有许多内置的数据类型,如整数(int)、浮点数(float)、字符串(str)、列表(list)、元组(tuple)、字典(dict)和集合(set)等。了解每种数据类型的特点、操作和常见用法。

控制流:掌握条件语句(if-else语句)和循环语句(for循环和while循环)。了解如何使用条件和循环来控制程序的执行流程。

函数:学习如何定义和调用函数。了解函数的参数传递方式(值传递和引用传递)、函数返回值和作用域等概念。

模块和包:了解Python模块和包的概念,学习如何导入、使用和创建模块和包。掌握常用的内置模块和第三方库的使用方法。

爬虫知识梳理

1.进行网页图片采集

进入图片网页并查找请求头,在Pycharm里安装requests库。导入requests包后获取图片地址,再使用requests加载图片,设置好图片名与格式,并用二进制方式写入图片,执行成功后获取图片。

2.进行豆瓣网参数传递

进入网页获取请求头,在Pycharm里导入requests包,定制请求头后,输入网页地址,拼接出搜索功能,定义要传递的参数,设置好请求头、以及传递参数,打印地址,运行程序后,进入网址即可。

3.进行豆瓣网多参数传递

获取地址中的请求头,导入requests包,定制好请求头,输入网页地址后,定义多参数,设置请求方式、请求头、传递参数,打印状态码,运行程序,执行后进入网址。

4.拓展知识

数据采集:了解如何发送HTTP请求,以获取网页的内容。学习使用Python的Requests库或其他类似的库发送GET请求和POST请求,处理Cookie和Session等。

数据处理:爬取的数据通常需要进一步处理和清洗,以便进行分析和存储。学习使用Python的数据处理和分析库(如Pandas和NumPy),以及正则表达式等工具。

动态网页爬取:有些网页内容是通过JavaScript动态加载的,这时候需要使用工具中的浏览器引擎(如Selenium和Puppeteer)模拟浏览器行为来获取完整的数据。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/article/detail/53293
推荐阅读
相关标签
  

闽ICP备14008679号