当前位置:   article > 正文

用python进行数据分析(入门学习)_python数据分析介绍

python数据分析介绍

做笔记啦!!!这几天突击了一下使用python进行数据分析,觉得还是梳理一遍比较好,不然学得快忘得也快[捂脸] 所以,今天这篇文章就主要介绍一下用python进行数据分析中常用到的三个库:numpy、pandas、matplotlib的入门使用。上课!

什么叫数据分析?

理解1:数据分析就是把隐藏在杂乱数据背后的有效信息提炼出来,总结所研究对象的内在规律。

利用数据分析可以帮助把数据的价值最大化,例如:

  • 分析用户的消费行为

通过数据分析研究用户的消费金额、消费品类、消费时间、消费频率等等,可以帮助企业去制定一个合适的促销方案;分析促销方案的最佳实践和频次;计算各类客户的活跃度;分析各类产品的回购力度;分析产品的目标销售对象等等。

  • 分析广告的点击率

通过数据分析可以确定出广告投放的最佳时间;制订广告方案定向投放目标人群等等。

理解2:数据分析就是利用适当的方法对大量收集来的数据进行分析,帮助人们做出判断,从而采取适当的行动。

下面进入正题,先简单介绍一下利用python进行数据分析的事先工具准备。

工具准备

——anaconda:集成环境,集成了数据分析和机器学习中所需要的全部环境。

anaconda中已经帮我们准备好了python以及数据分析常使用到的numpy、pandas、matplotlib库,也就是说,我们只需要下载安装好anaconda这个工具,其他的都不用我们操心啦!

相比起使用python搭配pycharm使用,每次需要使用到一个新库都要手动下载配置,要是在没网的情况下就更加麻烦了,所以就数据分析而言,还是使用anaconda比较方便。

在anaconda里面,还自动为我们安装了jupyter这个工具,这是一个基于浏览器的可视化开发工具,可以创建ipynb文件,做到代码随写随运行,还能很方便地在里面使用markdown做笔记,真的非常好用!

数据分析三剑客之numpy模块

介绍:numpy是python语言中做科学计算的基础库,重在数值计算,多用于在大型、多维数组上执行的数值运算。(可以把它理解为一个进行数值计算的容器)

一、numpy的创建

首先在窗口导入numpy库:

import numpy as np
  • 使用np.array() 创建
  • 使用plt 创建
  • 使用np 的routines 函数创建
arr = np.array([1,2,3])

注:array数组——其中存储的数据类型必须是统一的,否则会进行强行转换。转换优先级:字符串>浮点型>整数,即如果遇到其中一个是字符串类型的,则优先将另外的数据转换为字符串类型。

再创建一个随机数组:

  1. arr = np.random.randint(0,100,size=(5,3)) # 返回一个53列、元素在0-100之间的随机数组
  2. ————显示结果———————
  3. array([[38, 69, 54],
  4. [43, 87, 75],
  5. [75, 39, 23],
  6. [67, 80, 14],
  7. [54, 84, 84]])

二、numpy的常用属性

  • shape
  • ndim
  • size
  • dtype
  • reshape
  1. arr.shape # 返回数组的形状
  2. ————显示结果——————
  3. (5, 3)
  4. arr.ndim # 返回数组的维度
  5. ————显示结果————
  6. 2
  7. arr.size # 返回数组元素的个数
  8. ————显示结果————
  9. 15
  10. arr.dtype # 返回数组的数据元素
  11. ————显示结果————
  12. dtype('int32')

使用type()函数可查看数据的返回类型:

  1. type(arr)
  2. ————显示结果————
  3. numpy.ndarray

创建array数组时可以指定数组元素类型:

  1. arr = np.array([1,2,3],dtype='int64')
  2. arr.dtype = 'uint8' # 将数组元素修改为uint8类型

三、numpy的索引和切片操作

先创建一个随机数组:

  1. arr = np.random.randint(1,100,size=(5,6)) # 创建一个56列的随机数组
  2. ————显示结果————
  3. array([[98, 62, 31, 14, 1, 54],
  4. [17, 49, 33, 36, 17, 89],
  5. [ 7, 29, 87, 36, 54, 31],
  6. [ 5, 41, 89, 39, 47, 67],
  7. [72, 30, 55, 41, 71, 29]])

array数组的取数:

  1. arr[1] # 取出numpy数组中的下标为1的行数据(python中行标从0开始计)
  2. ————显示结果————
  3. array([17, 49, 33, 36, 17, 89])
  4. arr[[1,3,4]] # 取出多行数据
  5. ————显示结果————
  6. array([[17, 49, 33, 36, 17, 89],
  7. [ 5, 41, 89, 39, 47, 67],
  8. [72, 30, 55, 41, 71, 29]])

对数组进行任意行或列的切片操作:

  1. a1 = arr[0:2] # 切出数组的前两行数据
  2. a2 = arr[:,0:2] # 切出数组的前两列数据
  3. ————显示结果————
  4. array([[98, 62, 31, 14, 1, 54],
  5. [17, 49, 33, 36, 17, 89]])
  6. array([[98, 62],
  7. [17, 49],
  8. [ 7, 29],
  9. [ 5, 41],
  10. [72, 30]])
  11. a3 = arr[0:2,0:2] # 切出前两行的前两列
  12. ————显示结果————
  13. array([[98, 62],
  14. [17, 49]])

对数组数据进行翻转:

  1. arr[::-1] # 将数组的行倒置
  2. arr[:,::-1] # 将数组的列倒置
  3. ————显示结果————
  4. array([[72, 30, 55, 41, 71, 29],
  5. [ 5, 41, 89, 39, 47, 67],
  6. [ 7, 29, 87, 36, 54, 31],
  7. [17, 49, 33, 36, 17, 89],
  8. [98, 62, 31, 14, 1, 54]]))
  9. array([[54, 1, 14, 31, 62, 98],
  10. [89, 17, 36, 33, 49, 17],
  11. [31, 54, 36, 87, 29, 7],
  12. [67, 47, 39, 89, 41, 5],
  13. [29, 71, 41, 55, 30, 72]])
  14. arr[::-1,::-1] # 将所有的元素倒置
  15. ————显示结果————
  16. array([[29, 71, 41, 55, 30, 72],
  17. [67, 47, 39, 89, 41, 5],
  18. [31, 54, 36, 87, 29, 7],
  19. [89, 17, 36, 33, 49, 17],
  20. [54, 1, 14, 31, 62, 98]])

使用reshape()函数可以对数组维度变形:

  1. arr1 = arr.reshape(30) # 将二维数组变形成一维数组
  2. ————显示结果————
  3. array([98, 62, 31, 14, 1, 54, 17, 49, 33, 36, 17, 89, 7, 29, 87, 36, 54,
  4. 31, 5, 41, 89, 39, 47, 67, 72, 30, 55, 41, 71, 29])
  5. arr2 = arr1.reshape(3,10) # 将二维数组变形为二维数组
  6. ————显示结果————
  7. array([[98, 62, 31, 14, 1, 54, 17, 49, 33, 36],
  8. [17, 89, 7, 29, 87, 36, 54, 31, 5, 41],
  9. [89, 39, 47, 67, 72, 30, 55, 41, 71, 29]])

四、numpy的级联操作

  • 将多个numpy数组进行横向或纵向的拼接
  • axis轴向的表示:在numpy的大多数函数中,axis=0表示纵向操作;axis=1表示横向操作。但是,在drop类函数中,二者相反。

注:拼接的两个数组必须维度和行列数一致。

  1. np.concatenate((arr,arr),axis=0)
  2. ————显示结果————
  3. array([[98, 62, 31, 14, 1, 54],
  4. [17, 49, 33, 36, 17, 89],
  5. [ 7, 29, 87, 36, 54, 31],
  6. [ 5, 41, 89, 39, 47, 67],
  7. [72, 30, 55, 41, 71, 29],
  8. [98, 62, 31, 14, 1, 54],
  9. [17, 49, 33, 36, 17, 89],
  10. [ 7, 29, 87, 36, 54, 31],
  11. [ 5, 41, 89, 39, 47, 67],
  12. [72, 30, 55, 41, 71, 29]])
  13. np.concatenate((arr,arr),axis=1)
  14. ————显示结果————
  15. array([[98, 62, 31, 14, 1, 54, 98, 62, 31, 14, 1, 54],
  16. [17, 49, 33, 36, 17, 89, 17, 49, 33, 36, 17, 89],
  17. [ 7, 29, 87, 36, 54, 31, 7, 29, 87, 36, 54, 31],
  18. [ 5, 41, 89, 39, 47, 67, 5, 41, 89, 39, 47, 67],
  19. [72, 30, 55, 41, 71, 29, 72, 30, 55, 41, 71, 29]])

五、常用的聚合函数

  • sum, max, min, mean
  1. arr.sum() # 求出数组元素之和
  2. ————显示结果————
  3. 1331
  4. arr.sum(axis=1) # 求出数组每一行元素之和;如果axis=0,则求出数组每一列元素之和
  5. ————显示结果————
  6. array([260, 241, 244, 288, 298])
  7. # 其他聚合函数的使用方法大致相同

六、常用的数学函数

  • numpy提供了标准的三角函数:sin(), cos(), tan()
  • numpy.around(a, decimals)函数返回指定数字的四舍五入值

参数说明:a-数组;decimal-舍入的小数位数,默认值为0,如果为负,整数将四舍五入到小数点左侧的位置。

  1. np.around(3.14,1)
  2. ————显示结果————
  3. 3.1
  4. np.around(3.14,-1)
  5. ————显示结果————
  6. 0.0
  7. np.around(6.34,-1)
  8. ————显示结果————
  9. 10.0

七、常用的统计函数

  • numpy.amin() 和numpy.amax(),用于计算数组中的元素沿指定轴的最小、最大值
  • numpy.ptp() 函数计算数组中元素最大值与最小值的差(可指定轴向)
  • numpy.median() 函数用于计算数组中元素的中位数
  • 标准差std()
  • 方差var()
  1. np.ptp([[1,2,3],[6,9,23]],axis=0) # 返回数组中每一列元素的极差
  2. np.ptp([[1,2,3],[6,9,23]],axis=1) # 返回数组中每一行元素的极差
  3. ————显示结果————
  4. array([ 5, 7, 20])
  5. array([ 2, 17])
  6. arr[1].std() # 返回数组第一行的标准差
  7. arr[1].var() # 返回数组第一行的方差

八、矩阵相关的函数

  • numpy中包含了一个矩阵库numpy.matlib,该模块中的函数返回的是一个矩阵,而不是ndarray对象
  • numpy.matlib.identity() 函数返回给定大小的单位矩阵
  • 行列转置
  • 两个矩阵相乘
  1. arr.T # xx.T 将xx数组行列转置
  2. a1 = np.array([[2,1],[4,3]])
  3. a2 = np.array([[1,2],[1,0]])
  4. np.dot(a1,a2) # 将a1和a2两个矩阵相乘
  5. ————结果显示————
  6. array([[3, 4],
  7. [7, 8]])

数据分析三剑客之pandas模块

为什么要学习pandas?——numpy能够帮助我们处理的是数值型的数据,pandas可以帮我们很好的处理除了数值型的其他数据。

在pandas中常用的两个类:Series、DataFrame

一、Series的用法

Series是一种类似于一维数组的对象,由下面两个部分组成:

  • values- 一组数据(ndarray类型)
  • index- 相关的数据索引标签

1、Series的创建

  • 由列表或numpy数组创建
  • 由字典创建

首先导入模块:

  1. from pandas import Series
  2. s = Series(data=[1,2,3,'four']) # 创建一个Series类的数组
  3. ————显示结果————
  4. 0 1
  5. 1 2
  6. 2 3
  7. 3 four
  8. dtype: object

可以为Series类的数组指定显式索引,增强Series的可读性:

  1. s = Series(data=[1,2,3,'four'],index=['a','b','c','d']) # 指定行索引为'a','b','c','d'
  2. ————结果显示————
  3. a 1
  4. b 2
  5. c 3
  6. d four
  7. dtype: object

由字典创建一个Series类的数组:

  1. dic = {'语文':100,
  2. '数学':99,
  3. '英语':89}
  4. s1 = Series(data=dic) # 字典里面的key成为Series对象里的显式行索引
  5. ————结果显示————
  6. 语文 100
  7. 数学 99
  8. 英语 89
  9. dtype: int64
  10. s1.语文 # 返回显式索引所对应的数值
  11. ————结果显示————
  12. 100
  13. s1[0:2] # 取s1中的前两行数据
  14. ————结果显示————
  15. 语文 100
  16. 数学 99
  17. dtype: int64

2、Series的常用属性

  • shape
  • size
  • index
  • values
  • dtype
  1. s1.shape # 返回数组形状
  2. ————结果显示————
  3. (3,)
  4. s1.size # 返回元素个数
  5. ————结果显示————
  6. 3
  7. s1.index # 返回数组索引
  8. ————结果显示————
  9. Index(['语文', '数学', '英语'], dtype='object')
  10. s1.values # 返回元素
  11. ————结果显示————
  12. array([100, 99, 89], dtype=int64)
  13. s1.dtype # 返回元素类型
  14. ————结果显示————
  15. dtype('int64')

注:Series中只能存储同类型的元素。

3、Series的常用方法

  • head(), tail()
  • unique()
  • isnull(), notnull()
  • add(), sub(), mul(), div()
  1. s2 = Series(data=np.random.randint(60,100,size=(10)))
  2. s2.head(4) # 显示s2数组中的前4个数据,如果不指定个数,则默认为前5
  3. ————结果显示————
  4. 0 98
  5. 1 97
  6. 2 83
  7. 3 66
  8. dtype: int32
  9. s2.tail(4) # 显示数组中的后4个数据
  10. s2.unique() # 表示数据去重
  11. s2.isnull() # 用于判断每个元素是否为空,是返回true,否返回false
  12. ————结果显示————
  13. 0 False
  14. 1 False
  15. 2 False
  16. 3 False
  17. 4 False
  18. 5 False
  19. 6 False
  20. 7 False
  21. 8 False
  22. 9 False
  23. dtype: bool

4、Series的算术运算

  • 法则:索引一致的元素进行算术运算,不一致则补空
  1. d1 = Series(data=[1,2,3],index=['a','b','c'])
  2. d2 = Series(data=[1,2,3],index=['a','d','c'])
  3. d = d1 + d2
  4. ————结果显示————
  5. a 2.0
  6. b NaN
  7. c 6.0
  8. d NaN
  9. dtype: float64

二、DataFrame的用法

介绍:DataFrame是一个表格型的数据结构。DataFrame由按一定顺序排列的多列数据组成,将Series的使用场景从一维拓展到多维。DataFrame既有行索引,也有列索引。

  • index - 行索引
  • columns - 列索引
  • values - 值

1、DataFrame的创建

  • ndarray创建
  • 字典创建

首先从pandas库导入DataFrame:

  1. from pandas import DataFrame
  2. df = DataFrame(data=[[1,2,3],[4,5,6]]) # 用ndarray的形式创建
  3. df = DataFrame(data=np.random.randint(0,100,size=(6,4)))
  4. dic = {
  5. 'name':['zhangsan','lisi','wangwu'],
  6. 'salary':[100,2000,3000]}
  7. df = DataFrame(data=dic) # 用字典的形式创建
  8. ————结果显示————
  9. name salary
  10. 0 zhangsan 100
  11. 1 lisi 2000
  12. 2 wangwu 3000

可以为DataFrame表格指定行索引:

  1. df = DataFrame(data=dic,index=['a','b','c'])
  2. ————结果显示————
  3. name salary
  4. a zhangsan 100
  5. b lisi 2000
  6. c wang 3000
  7. # 指定列索引时同理,添加columns=['a','b','c','d']

2、DataFrame的属性

  • values
  • columns
  • index
  • shape
  1. df.values # 返回表格元素
  2. ————结果显示————
  3. array([['zhangsan', 100],
  4. ['lisi', 2000],
  5. ['wang', 3000]], dtype=object)
  6. df.columns # 返回表格的列
  7. ————结果显示————
  8. Index(['name', 'salary'], dtype='object')
  9. df.index # 返回表格的行索引
  10. ————结果显示————
  11. Index(['a', 'b', 'c'], dtype='object')
  12. df.shape # 返回表格的形状
  13. ————结果显示————
  14. (3, 2)

3、DataFrame的索引操作

  • 取列元素
  • 取行元素
  • 取元素
  • iloc - 隐式索引;loc - 显式索引
  1. ddf = DataFrame(data=np.random.randint(60,100,size=(8,4)),columns=['a','b','c','d'])
  2. ————结果显示————
  3. a b c d
  4. 0 70 77 97 88
  5. 1 67 67 80 60
  6. 2 95 69 79 99
  7. 3 77 84 83 68
  8. 4 94 85 70 68
  9. 5 64 78 86 86
  10. 6 83 62 98 70
  11. 7 92 67 60 65
  12. ddf['a'] # 取指定单列值,如果ddf有显式的索引,通过索引机制取行或取列的时候只可以使用显示索引
  13. ————结果显示————
  14. 0 70
  15. 1 67
  16. 2 95
  17. 3 77
  18. 4 94
  19. 5 64
  20. 6 83
  21. 7 92
  22. Name: a, dtype: int32
  23. ddf[['a','c']] # 取指定的多列值
  24. ————结果显示————
  25. a c
  26. 0 70 97
  27. 1 67 80
  28. 2 95 79
  29. 3 77 83
  30. 4 94 70
  31. 5 64 86
  32. 6 83 98
  33. 7 92 60
  34. ddf.iloc[0] # 通过隐式索引取指定单行值
  35. ————结果显示————
  36. a 70
  37. b 77
  38. c 97
  39. d 88
  40. Name: 0, dtype: int32
  41. ddf.iloc[[0,3,5]] # 取多行值
  42. ————结果显示————
  43. a b c d
  44. 0 70 77 97 88
  45. 3 77 84 83 68
  46. 5 64 78 86 86
  47. ddf.loc[[1,3,5],'b'] # 取指定位置的元素值
  48. ————结果显示————
  49. 1 67
  50. 3 84
  51. 5 78
  52. Name: b, dtype: int32

4、DataFrame的切片操作

  • 对行进行切片
  • 对列进行切片
  1. ddf[0:2] # 切前两行
  2. ————结果显示————
  3. a b c d
  4. 0 70 77 97 88
  5. 1 67 67 80 60
  6. ddf.iloc[:,0:2] # 切前两列
  7. ————结果显示————
  8. a b
  9. 0 70 77
  10. 1 67 67
  11. 2 95 69
  12. 3 77 84
  13. 4 94 85
  14. 5 64 78
  15. 6 83 62
  16. 7 92 67

5、DataFrame的运算

  • 同Series一样的规则

三、其他

  • 转换数据类型为时间序列类型
  • 设置某列作为源数据的行索引

首先导入pandas库:

  1. import pandas as pd
  2. dic = {
  3. 'time':['2020-10-10','2020-11-23','2021-02-12'],
  4. 'temp':[33,31,30]}
  5. ddf = DataFrame(data=dic) # 创建一个DataFrame表格
  6. ————结果显示————
  7. time temp
  8. 0 2020-10-10 33
  9. 1 2020-11-23 31
  10. 2 2021-02-12 30
  11. ddf['time'].dtype # 查看time列的类型
  12. ————结果显示————
  13. dtype('O')
  14. pd.to_datetime(ddf['time]) # 将time列的数据类型转换为时间序列类型
  15. ————结果显示————
  16. dtype('<M8[ns]')
  17. ddf.set_index('time',inplace=True) # 将time列作为源数据的行索引
  18. ————结果显示————
  19. temp
  20. time
  21. 2020-10-10 33
  22. 2020-11-23 31
  23. 2021-02-12 30

至于matplotlib,其实我还没学......先记到这吧,之后我学完了再上来更新~

Python经验分享

学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

Python学习路线

这里把Python常用的技术点做了整理,有各个领域的知识点汇总,可以按照上面的知识点找对应的学习资源。
在这里插入图片描述

学习软件

Python常用的开发软件,会给大家节省很多时间。
在这里插入图片描述

学习视频

编程学习一定要多多看视频,书籍和视频结合起来学习才能事半功倍。
在这里插入图片描述

100道练习题

在这里插入图片描述

实战案例

光学理论是没用的,学习编程切忌纸上谈兵,一定要动手实操,将自己学到的知识运用到实际当中。
在这里插入图片描述
最后祝大家天天进步!!

上面这份完整版的Python全套学习资料已经上传至CSDN官方,朋友如果需要可以直接微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/693305
推荐阅读
相关标签
  

闽ICP备14008679号