赞
踩
1-1 现在让你分析月销量,你会使用哪种数据分析方法?
答案:对比分析
1-2 在分析一组数据前,发现并不是所有数据都是你需要的,该怎么办?
答案:通过数据处理中的数据规约,减少数据规模
1-3 如果发现数据中存在异常数据,如年龄200,该如何处理?
答案:删除
1-4 数据中存在值为0的数据影响分析结果吗?
答案:当我们有大量完整的数据时,删除少部分值为0的数据,对数据分析结果不会造成太大影响。
1-5 Python中与数据分析相关的模块有哪些?
答案:常用模块有数值计算模块NumPy、数据处理分析模块Pandas、数据可视化模块Matplotlib、机器学习模块scikit-learn
1-6 Excel数据中存在大量空值,你将使用哪个模块处理?
答案:Pandas模块
1-1 简述NumPy模块的由来与作用?
Numeric模块是NumPy模块的前身,在1995年由Jim Hugunin 与其他协作者共同开发。随后又出现了Numarray模块,该模块与Numeric模块相似都是用于数组计算的,但是这两个模块都有着各自的优势,对于开发者来说,需要根据不同的需求选择开发效率更高的模块。
在2006年Travis Oliphant将Numeric模块中结合了Numarray模块的优点,并加入了其他扩展而开发了 NumPy模块的第一个版本。NumPy 为开放源代码,使用了BSD许可证授权,并且由众多开发者共同维护开发。
1-2 numpy 常用的数据类型都有哪些?
numpy模块常用的数据类型如下表所示。
数据类型 描 述
np.bool 布尔值(True或False)
np.int_ 默认的整数类型(与 C 语言中的 long相同,通常为int32 或 int64)
np.intc 与 C 的 int 类型一样,(通常为int32 或 int 64)
np.intp 用于索引的整数类型(与 C中 的 size_t相同,通常为是 int32 或 int64)
np.int8 字节(-128到127)
np.int16 整数(-32768至32767)
np.int32 整数(-2147483648至2147483647)
np.int64 整数(-9223372036854775808至9223372036854775807)
np.uint8 无符号整数(0到255)
np.uint16 无符号整数(0到65535)
np.uint32 无符号整数(0到4294967295)
np.uint64 无符号整数(0到18446744073709551615)
np.half/np.float16 半精度浮点数:1个符号位,5位指数位,10位小数部分
np.float32 单精度浮点数,1个符号位,8个指数位,23 位小数部分
np.float64/np.float_ 双精度浮点数,1 个符号位,11个指数位,52 位小数部分
np.complex64 复数,表示两个32 位浮点数(实数部分和虚数部分)
np.complex128/np.complex_ 复数,表示两个64 位浮点数(实数部分和虚数部分)
1-3 简述什么是ndarray()对象?
ndarray()对象是NumPy模块的基础对象,用于存放同类型元素的多维数组。ndarray 中的每个元素在内存中都有相同存储大小的区域,而数据类型是由dtype()对象所指定的,每个ndarray只有一种dtype类型。
数组有一个比较重要的属性是shape,数组的维数与元素的数量就是通过shape来确定的。数组的形状(shape)是由N个正整数,组成的元组来指定的,元组的每个元素对应每一维的大小。数组在创建时被指定大小后将不会再发生改变,而Python中的列表大小是可以改变的,这也是数组与列表区别较大的地方。
1-4 通过哪个函数可以快速生成一个任意维数的数组?
a = np.random.rand(2,3,2) # 创建随机数组
print(‘数组内容为: \n’,a) # 打印数组内容
print(‘数组形状为:’,a.shape) # 打印数组形状
print(‘数组维数为:’,a.ndim) # 打印数组维数
运行结果如下:
数组内容为:
[[[0.73907586 0.87176277]
[0.42022933 0.77297553]
[0.47148362 0.48561028]]
[[0.86624807 0.78783422]
[0.3208552 0.52580099]
[0.31325425 0.94394843]]]
数组形状为: (2, 3, 2)
数组维数为: 3
1-5 简述什么是广播机制?
广播(Broadcast)机制只有在实现两个形状不同的数组计算时才会触发,例如,数组a和数组b的形状相同,那么数组a乘以数组b的结果就是两个数组对应位相乘,这样的计算需要维数与维度长度相同。当计算两个不同形状的数组时,numpy将自动触发广播机制,此时需要将较小的数组形状进行扩展,让两个数组形状相同,以便于进行两个数组元素的计算。。
1-1 简述pandas的数据结构?
pandas的数据结构中有两大核心,分别是Series与DataFrame。其中Series是一维数组和Numpy中的一维数组类似。这两种一维数组与Python中基本数据结构List相近,Series可以保存多种数据类型的数据,如布尔值、字符串、数字类型等。DataFrame是一种以表格形式的数据结构类似于Excel表格一样,是一种二维的表格型数据结构。
1-2 简述pandas提供了哪几个读取数据库信息的函数并介绍每个函数的特点?
pandas提供了三个函数用于实现数据库信息的读取操作,具体函数如下:
read_sql_query()函数:可以实现对数据库的查询操作,但是不能直接读取数据库中的某个表,需要在sql语句中指定查询命令与数据表的名称。
read_sql_table()函数:只能实现读取数据库中的某一个表内的数据,并且该函数需要在SQLAlchemy模块的支持下才可以使用。
read_sql()函数:该函数则是一个比较全能的函数,即可可以实现读取数据库中某一个表的数据,也可以实现具体的查询操作。
1-3 简述NaN数据是什么?
NaN数据在numpy模块中用于表示空缺数据。
1-4 简述什么是分组数据?
pandas提供了一个groupby()方法,通过该方法对数据集分组后将返回一个(数据集为Series对象时)SeriesGroupBy对象或(数据集为DataFrame对象时)DataFrameGroupBy对象,然后通过该对象根据
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。