当前位置:   article > 正文

AI基础:数据可视化简易入门(Matplotlib 和 Seaborn)

ai绘画辅助 数据可视化怎么做

0 导语

Matplotlib 是一个 Python 的 2D 绘图库,它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形 。

通过 Matplotlib,开发者可以仅需要几行代码,便可以生成绘图,直方图,功率谱,条形图,错误图,散点图等。

Seaborn 是基于 Python 且非常受欢迎的图形可视化库,在 Matplotlib 的基础上,进行了更高级的封装,使得作图更加方便快捷。即便是没有什么基础的人,也能通过极简的代码,做出具有分析价值而又十分美观的图形。

在此之前,我已经写了一篇 Numpy 和 Pandas 的快速入门,本篇文章讲解数据可视化快速入门:

AI 基础:Numpy 简易入门

AI 基础:Pandas 简易入门

备注:本文代码可以在github下载

https://github.com/fengdu78/Data-Science-Notes/tree/master/5.data-visualization

1.Matplotlib

1.1 通过 figure()函数创建画布

  1. import matplotlib.pyplot as plt
  2. %matplotlib inline
  1. import numpy as np
  2. data_one = np.arange(100, 201) # 生成包含100~200的数组
  3. plt.plot(data_one) # 绘制data1折线图
  4. plt.show()
  1. # 创建新的空白画布,返回Figure实例
  2. figure_obj = plt.figure()
  1. data_two = np.arange(200, 301) # 生成包含200~300的数组
  2. plt.figure(facecolor='gray') # 创建背景为灰色的新画布
  3. plt.plot(data_two) # 通过data2绘制折线图
  4. plt.show()

1.2 通过 subplot()函数创建单个子图

  1. nums = np.arange(0, 101) # 生成0~100的数组
  2. # 分成2*2的矩阵区域,占用编号为1的区域,即第1行第1列的子图
  3. plt.subplot(221)
  4. # 在选中的子图上作图
  5. plt.plot(nums, nums)
  6. # 分成2*2的矩阵区域,占用编号为2的区域,即第1行第2列的子图
  7. plt.subplot(222)
  8. # 在选中的子图上作图
  9. plt.plot(nums, -nums)
  10. # 分成2*1的矩阵区域,占用编号为2的区域,即第2行的子图
  11. plt.subplot(212)
  12. # 在选中的子图上作图
  13. plt.plot(nums, nums**2)
  14. # 在本机上显示图形
  15. plt.show()

1.3 通过 subplots()函数创建多个子图

  1. # 生成包含1100之间所有整数的数组
  2. nums = np.arange(1, 101)
  3. # 分成2*2的矩阵区域,返回子图数组axes
  4. fig, axes = plt.subplots(2, 2)
  5. ax1 = axes[0, 0] # 根据索引[00]从Axes对象数组中获取第1个子图
  6. ax2 = axes[0, 1] # 根据索引[01]从Axes对象数组中获取第2个子图
  7. ax3 = axes[1, 0] # 根据索引[10]从Axes对象数组中获取第3个子图
  8. ax4 = axes[1, 1] # 根据索引[11]从Axes对象数组中获取第4个子图
  9. # 在选中的子图上作图
  10. ax1.plot(nums, nums)
  11. ax2.plot(nums, -nums)
  12. ax3.plot(nums, nums**2)
  13. ax4.plot(nums, np.log(nums))
  14. plt.show()

1.4 通过 add_subplot()方法添加和选中子图

  1. # 引入matplotlib包
  2. import matplotlib.pyplot as plt
  3. import numpy as np
  4. # 创建Figure实例
  5. fig = plt.figure()
  6. # 添加子图
  7. fig.add_subplot(2, 2, 1)
  8. fig.add_subplot(2, 2, 2)
  9. fig.add_subplot(2, 2, 4)
  10. fig.add_subplot(2, 2, 3)
  11. # 在子图上作图
  12. random_arr = np.random.randn(100)
  13. # 默认是在最后一次使用subplot的位置上作图,即编号为3的位置
  14. plt.plot(random_arr)
  15. plt.show()

1.5 添加各类标签

  1. import numpy as np
  2. data = np.arange(0, 1.1, 0.01)
  3. plt.title("Title") # 添加标题
  4. plt.xlabel("x") # 添加x轴的名称
  5. plt.ylabel("y") # 添加y轴的名称
  6. # 设置x和y轴的刻度
  7. plt.xticks([0, 0.5, 1])
  8. plt.yticks([0, 0.5, 1.0])
  9. plt.plot(data, data**2) # 绘制y=x^2曲线
  10. plt.plot(data, data**3) # 绘制y=x^3曲线
  11. plt.legend(["y=x^2", "y=x^3"]) # 添加图例
  12. plt.show() # 在本机上显示图形
  1. import numpy as np
  2. x=np.linspace(-3,3,50)#产生-33之间50个点
  3. y1=2*x+1#定义函数
  4. y2=x**2
  1. # num=3表示图片上方标题 变为figure3,figsize=(长,宽)设置figure大小
  2. plt.figure(num=3, figsize=(8, 5))
  3. plt.plot(x, y2)
  4. # 红色虚线直线宽度默认1.0
  5. plt.plot(x, y1, color='red', linewidth=1.0, linestyle='--')
  6. plt.xlim((-1, 2)) #设置x轴范围
  7. plt.ylim((-2, 3)) #设置轴y范围
  8. #设置坐标轴含义, 注:英文直接写,中文需要后面加上fontproperties属性
  9. plt.xlabel(u'价格', fontproperties='SimHei', fontsize=16)
  10. plt.ylabel(u'利润', fontproperties='SimHei', fontsize=16)
  11. # 设置x轴刻度
  12. # -12区间,5个点,4个区间,平均分:[-1.,-0.25,0.5,1.25,2.]
  13. new_ticks = np.linspace(-1, 2, 5)
  14. print(new_ticks)
  15. plt.xticks(new_ticks)
  16. # 设置y轴刻度
  17. '''
  18. 设置对应坐标用汉字或英文表示,后面的属性fontproperties表示中文可见,不乱码,
  19. 内部英文$$表示将英文括起来,r表示正则匹配,通过这个方式将其变为好看的字体
  20. 如果要显示特殊字符,比如阿尔法,则用转意符\alpha,前面的\ 表示空格转意
  21. '''
  22. plt.yticks([-2, -1.8, -1, 1.22, 3.],
  23. ['非常糟糕', '糟糕', r'$good\ \alpha$', r'$really\ good$', '超级好'],
  24. fontproperties='SimHei',
  25. fontsize=12)
  26. plt.show()
[-1.   -0.25  0.5   1.25  2.  ]

1.6 绘制常见类型图表

  1. arr_random = np.random.randn(100) # 创建随机数组
  2. plt.hist(arr_random, bins=8, color='g', alpha=0.7) # 绘制直方图
  3. plt.show() # 显示图形
  1. # 创建包含整数0~50的数组,用于表示x轴的数据
  2. x = np.arange(51)
  3. # 创建另一数组,用于表示y轴的数据
  4. y = np.random.rand(51) * 10
  5. plt.scatter(x, y) # 绘制散点图
  6. plt.show()
  1. # 创建包含0~4的一维数组
  2. x = np.arange(5)
  3. # 从上下限范围内随机选取整数,创建两个25列的数组
  4. y1, y2 = np.random.randint(1, 31, size=(2, 5))
  5. width = 0.25 # 条形的宽度
  6. ax = plt.subplot(1, 1, 1) # 创建一个子图
  7. ax.bar(x, y1, width, color='r') # 绘制红色的柱形图
  8. ax.bar(x+width, y2, width, color='g') # 绘制另一个绿色的柱形图
  9. ax.set_xticks(x+width) # 设置x轴的刻度
  10. # 设置x轴的刻度标签
  11. ax.set_xticklabels(['January', 'February', 'March', 'April ', 'May '])
  12. plt.show() # 显示图形
  1. data = np.arange(1, 3, 0.3)
  2. # 绘制直线,颜色为青色,标记为“x”,线型为长虚线
  3. plt.plot(data, color="c", marker="x", linestyle="--")
  4. # 绘制直线,颜色为品红,标记为实心圆圈,线型为短虚线
  5. plt.plot(data+1, color="m", marker="o", linestyle=":")
  6. # 绘制直线,颜色为黑色,标记为五边形,线型为短点相间线
  7. plt.plot(data+2, color="k", marker="p", linestyle="-.")
  8. # 也可采用下面的方式绘制三条不同颜色、标记和线型的直线
  9. # plt.plot(data, 'cx--', data+1, 'mo:', data+2, 'kp-.')
  10. plt.show()

1.7 本地保存图形

  1. # 创建包含100个数值的随机数组
  2. import numpy as np
  3. random_arr = np.random.randn(100)
random_arr
  1. array([-2.02009735, -1.21035005, 0.57679581, -0.00584516, 0.59612158,
  2. -0.31118333, -0.67245832, -0.56589637, 0.25570972, 0.68256563,
  3. -0.45816656, 0.34956566, 0.51020863, -0.75272333, 1.42433863,
  4. -0.05658573, 0.35273745, -0.35519388, 0.15499307, 0.39895018,
  5. -1.86154032, -1.23949979, -0.63471999, 1.09811855, 0.02552633,
  6. -0.16804823, 0.34956809, 0.93485716, 0.37747537, -0.16523647,
  7. -1.04335227, -0.01702448, 1.60924259, 1.15294223, -0.15174045,
  8. -0.03772519, 1.090792 , 0.65279282, 0.38186503, -1.3393988 ,
  9. 0.10098444, -0.67411024, -2.39433996, -0.43594683, -0.155494 ,
  10. 0.54676898, -0.97705035, -1.34799225, 1.64568965, -1.30594202,
  11. -0.30704745, -0.61612604, 1.09322798, 0.88921527, -0.22512233,
  12. -1.10477607, -0.61717627, 0.73952416, 0.30252205, 0.60808863,
  13. -0.3400892 , -2.01174842, -0.46480751, 1.54980369, 1.74610516,
  14. -0.53146867, -0.70904096, 1.73856111, -0.09254733, 0.43490467,
  15. -0.87201768, -0.73685075, -0.65868507, -0.18305015, 0.62559549,
  16. 0.30743734, -0.78680136, -0.05808801, -0.23935035, -1.14580197,
  17. 0.99154585, 0.07974613, 0.61315198, 0.93667393, 0.76542518,
  18. 1.90500996, 0.0306359 , -2.53801425, 0.17371482, 1.75721226,
  19. 0.25076371, -1.00032227, 0.20617839, 0.81751139, 0.64920089,
  20. 1.3145223 , 1.05360644, 2.06404062, 1.7208791 , -0.09375516])
  1. # 将随机数组的数据绘制线形图
  2. plt.plot(random_arr)
  3. plt.show()

2 seaborn—绘制统计图形

2.1 可视化数据的分布

  1. import seaborn as sns
  2. %matplotlib inline
  3. import numpy as np
  4. sns.set() # 显式调用set()获取默认绘图
  5. np.random.seed(0) # 确定随机数生成器的种子
  6. arr = np.random.randn(100) # 生成随机数组
  7. ax = sns.distplot(arr, bins=10) # 绘制直方图
  1. # 创建包含500个位于[0100]之间整数的随机数组
  2. array_random = np.random.randint(0, 100, 500)
  3. # 绘制核密度估计曲线
  4. sns.distplot(array_random, hist=False, rug=True)
  1. # 创建DataFrame对象
  2. import pandas as pd
  3. dataframe_obj = pd.DataFrame({"x": np.random.randn(500),"y": np.random.randn(500)})
  4. dataframe_obj

xy
00.4782151.246931
1-0.0539060.187860
2-1.2419011.281412
3-1.6584951.375265
4-0.3533721.420608
51.656508-0.557275
61.5119131.657975
7-0.9068040.452821
8-0.777217-0.368433
9-0.739228-1.286740
100.987989-1.634521
11-0.026473-0.010277
12-1.262669-0.256035
13-1.5611650.918040
14-0.939354-0.127256
150.3354530.217671
16-1.4897520.432434
17-1.066911-0.515731
181.035863-0.297603
190.631313-0.653702
20-1.8943671.868757
210.0365710.237410
22-0.312502-1.319956
230.814248-0.811489
240.382404-0.449499
251.6466660.410724
260.2275530.313078
27-1.3998750.431041
28-2.161313-1.314429
290.2807502.321291
.........
470-1.266559-0.595866
471-0.7665660.096873
4720.205730-1.270893
473-0.608373-1.875642
474-0.3231700.336776
475-1.615268-1.565554
4760.4336791.887319
477-0.217975-0.728759
4781.0233240.201026
479-0.134135-0.746496
4800.0467241.299394
481-0.595088-0.641203
482-1.949716-0.520380
483-0.530026-0.348830
484-1.060356-0.013075
485-0.908488-0.981377
486-0.034975-1.450624
487-1.4263970.320157
488-1.3025371.746811
489-1.1907580.407325
490-0.1705430.311181
4910.8140520.299761
492-0.5201460.591630
4931.934602-0.165131
494-0.052196-0.524848
495-1.0574860.939177
496-0.158090-1.588747
497-0.2384121.627092
4980.279500-0.218554
4991.962078-0.956771

500 rows × 2 columns

  1. # 绘制散布图
  2. sns.jointplot(x="x", y="y", data=dataframe_obj)
  1. # 绘制二维直方图
  2. sns.jointplot(x="x", y="y", data=dataframe_obj, kind="hex")


  1. # 核密度估计
  2. sns.jointplot(x="x", y="y", data=dataframe_obj, kind="kde")
  1. # 加载seaborn中的数据集
  2. dataset = sns.load_dataset("tips")
  3. # 绘制多个成对的双变量分布
  4. sns.pairplot(dataset)

2.2 用分类数据绘图

  1. tips = sns.load_dataset("tips")
  2. sns.stripplot(x="day", y="total_bill", data=tips)
  1. tips = sns.load_dataset("tips")
  2. sns.stripplot(x="day", y="total_bill", data=tips, jitter=True)
sns.swarmplot(x="day", y="total_bill", data=tips)
sns.boxplot(x="day", y="total_bill", data=tips)
sns.violinplot(x="day", y="total_bill", data=tips)
sns.barplot(x="day", y="total_bill", data=tips)
sns.pointplot(x="day", y="total_bill", data=tips)

备注:本文代码可以在github下载

https://github.com/fengdu78/Data-Science-Notes/tree/master/5.data-visualization

  1. 往期精彩回顾
  2. 那些年做的学术公益-你不是一个人在战斗适合初学者入门人工智能的路线及资料下载机器学习在线手册深度学习在线手册备注:加入本站微信群或者qq群,请回复“加群”加入知识星球(4500+用户,ID:92416895),请回复“知识星球”
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/132924
推荐阅读
相关标签
  

闽ICP备14008679号