当前位置:   article > 正文

100天精通Python(可视化篇)——第77天:数据可视化入门基础大全(万字总结+含常用图表动图展示)

100天精通Python(可视化篇)——第77天:数据可视化入门基础大全(万字总结+含常用图表动图展示)

在这里插入图片描述

1. 什么是数据可视化?

数据可视化是将数据以图表、图像、指标、地图等形式展示出来,从而帮助人们可视化研究和掌握数据信息的一种分析方法。它可以克服数据表中过多信息对使用者过度负荷的问题,更加清晰地显示出数据之间的相关性,更容易引发思维,从而更具有引发智能的视觉效果,帮助决策者更好的利用大量数据中所蕴含的信息,更加准确和快速地进行数据分析。

数据可视化可以将大量数据简化,从而使分析变得轻松。通过将复杂的数据信息以图表、地图和关系图的形式展现出来,使我们很容易识别其中的联系、趋势和偏差。例如,人们可以使用条形图快速比较不同分组的数据。如果数据按地理位置分布,那么我们就可以通过地图展示特定区域的信息。

数据可视化以及其中的图表、地图和关系图等,可以帮助用户更好地了解自己研究的内容,以及不同数据之间的关系,从而更容易找到有价值的发现和结论。这部分结果有可能改变用户的选择或行为,有时甚至可以改变一个行业或一个公司的方向。

数据可视化的价值已被公认,它在管理、商业、健康、教育和任何跨职能领域都发挥着独特的作用。随着数据挖掘和数据分析技术的不断发展,数据可视化也可以更好地帮助组织管理和分析信息,从而使决策者做出更正确和更有意义的决定。

2. 为什么会用数据可视化?

数据可视化是一种有效的通信工具,可以简洁地表达出很多复杂的数据信息,让读者能够快速、准确地理解。通过数据可视化,可以对大量数据进行更好的探查和发现,有助于研究人员进行模式发现、推断和决策,使分析结果变得更可靠。

同样重要的是,数据可视化有助于提高数据洞察,能够将复杂的数据以可理解、易于理解的方式呈现出来以供用户阅读和查看。它们为读者的客观和客观意义提供了有价值的信息,这对那些不具备数据分析能力的非专业人士来说尤为重要,他们可以及时准确地获得数据信息,而不用花费太多精力。

最后,数据可视化还具有创造、交互和演示功能,可以帮助研究者以有趣的方式探索数据,而不必像以前那样繁琐地进行报表计算和提取工作。使用数据可视化工具,可以更快速地展示出重要的信息以提高经理的决策能力,也可以帮助消费者或投资者理解公司的业绩,帮助他们做出更明智的决定。

总之,数据可视化是一种强大的分析工具,能够非常有效地帮助研究人员和业务决策者对复杂数据进行探索和可视化,从而为各类用户提供实用而可靠的信息。

3. 数据可视化的好处?

快速揭示隐藏在数据中的信息:数据可视化能够快速帮助你理解数据,因为可视化是以图形的形式来展示数据,通过图表可以视觉确定出数据之间的相关关系。

清晰的结果:如果你使用一堆数字而没有图形,可能会有很多人就困惑你的结论是基于什么证据。如果你使用可视化,其用来展示结果会清晰得多,从而更容易被大众理解和接受。

以有趣的方式呈现:可视化不仅能够帮助你深入理解你的数据,还能以有趣的方式呈现出来,而这些有趣的方式会更容易吸引读者的注意力,从而让你的观点更容易被听众理解和接受。

4. 如何使用数据可视化?

数据可视化是一种将大量数据以可读性更高的方式展现出来的方式。它使用图表,曲线图,统计图,色彩标注等图形来表示数据。使用数据可视化可以快速地理解数据之间的相互关系,加深数据的理解。

使用数据可视化的步骤通常包括:

  • 1、收集相关的数据:首先要收集分析的数据,以方便后续进行分析。
  • 2、选择最适合用来表示数据的图表:根据数据类型来选择最适合的表格或图形,以更好地表达数据之间的联系。
  • 3、绘制图形:使用统计软件或图表绘图软件来绘制图形。
  • 4、对数据进行分析:进行数据可视化技术的分析,如建立模型,检测趋势等。
  • 5、画出结论:分析图形并得出结论。

5. Python数据可视化常用工具

在这里插入图片描述

1)Matplotlib绘图

Matplotlib是一个Python图形库,用于创建高质量的2D图,台式画图和web应用程序图表,具有良好的自定义功能。与PyLab和MatLab的交互性强,因此提供了一种容易访问的算法语义,复杂的数据可以轻松视觉化,而无需其他编程工作。Matplotlib的主要功能是创建出版物上可靠的,高质量的图像。

Matplotlib为使用者提供了基本的绘图工具,如点、线、折线图和散点图。此外,点状图、气泡图、直方图、带图例的柱状图等复杂图表也可以轻松设计工作。 Matplotlib涵盖了一系列颜色模式,令用户可以更轻松地在图表之间切换,使之更有效率和美观。为深入到有趣的细节,它可以方便地使用坐标系,以及控制标签,注释和其他图形设置,因此在完全自定义的基础上,图表可以进一步处理。

它的数据可视化库,可以将大量的统计信息转换为更为精细的图表,以一种易于理解的方式来呈现数据。Matplotlib还支持大量的第三方插件,例如seaborn,它们可以使用来创建更漂亮的图表,以及pandas,用于读取、处理和分析数据。

Matplotlib还可用于绘图的交互式程序,用户可以即时看到一系列图表的变化。它的工作流也可以处理图表,只要确保事先准备好数据,Matplotlib就可以提供正确的展示和分析,从而避免繁琐的数据处理工作。

总的来说,Matplotlib是一个非常有用的Python图形库,可用于创建2D图,用于可视化数据和做分析,还可以轻松定制图像,提供令人满意的结果。

2)Seaborn绘图

Seaborn 是一个 Python 下的绘图包,它能够在许多硬件和平台上创建出呈现出优质的图像,它具有强大的数据可视化功能。 为了帮助有创新想法的客户,Seaborn集成了多种绘图,以突出数据特征,并使大规模数据分析处理更加容易。

Seaborn使用matplotlib绘图,因此它能够灵活地生成和修改图表,给用户更大的自由度。它提供了多种主题功能,允许用户做成漂亮的可视化图表,以便轻松分析和理解数据。

Seaborn不仅具有易用的API,为绘图设置必要的参数以一个语句就能完成,而且提供了诸如揉合,线性回归,连续分布和子级函数等复杂的绘图功能,以帮助用户更深入地了解数据。它还提供了方便的分类可视化功能,如双变量分布图,热图,因子分析方法等,能给出大量有用的信息。

通过Seaborn可视化数据,可以发现和探索未知的规律,而不需要花费太多时间设置参数,因此非常适合数据科学家,数据分析师以及数据可视化技术员。因此Seaborn可以说是数据挖掘,数据分析和数据可视化的首选。

3)Bokeh绘图

Bokeh是一个Python库,用于创建交互式实时图表和精美的可视化。它提供了高级API,简单而又强大,可以帮助开发人员为Web浏览器创建流畅的,可交互的数据可视化图表。 Bokeh可以直接使用各种表示性编程语言创建图表,可以被调用并生成响应式的HTML页面,以提供颜色,形状,图表,仪表板和类别。

Bokeh模块为网络应用程序提供了更强大的数据可视化可能性,使图表更具可解释性和和吸引力。它还提供了工具框架,用于开发完全响应性的复杂图表应用程序,可以与用户进行交互,反馈信息可视化,并有效追踪其状态。

同时,Bokeh支持多种技术,包括JS,Cython,虚拟文档,以及REST技术,以便创建以及渲染复杂的图表,更新图表的内容和数据,响应用户输入,并将其可视化。此外,它还支持大数据可视化方案,使研究人员能够有效处理并分析大数据。

6. 常用图表介绍及其应用场景

1)折线图

折线图是以折线的上升或下降来表示统计数量的增减变化的统计图,可以显示随时间(根据常用比例设置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势。折线图也是最常用和最基础的可视化图形,足以满足我们日常 80% 的需求。

在这里插入图片描述

特点:能够显示数据的变化趋势,反映事物的变化情况。(变化)

应用场景

  • 呈现公司产品(不同区域)每天活跃用户数
  • 呈现app每天下载数量
  • 呈现产品新功能上线后,用户点击次数随时间的变化
  • 呈现员工每天上下班时间

2)柱状图

柱形图,又称长条图、柱状统计图、条图、条状图、棒形图,是一种以长方形的长度为变量的统计图表。长条图用来比较两个或以上的价值(不同时间或者不同条件),只有一个变量,通常利用于较小的数据集分析。长条图亦可横向排列,或用多维方式表达。

在这里插入图片描述
特点

  • 通过具体数值反映出实际数值大小。
  • 不同数据间有明显的对比,可以清晰地展示出趋势和对比度。
  • 绘制连离散的数据,能够一眼看出各个数据的大小,比较数据之间的差别。(统计)

应用场景

  • 用来表示一组数据中各个数据之间的关系,并反映各个分类的数量。
  • 常用于分析年度收入,衡量组织的增长,分析产品的分布,比较各种分类的数据等。

3)饼图

饼图是一种常见的统计图表,用来表示每个分类所占比例。它是一种分开圆形,再把它们分成不同大小和形状的片段,表示不同分类处于整体中所占的比例,可以直观地反映变量之间的关系。同时也有扇形图,也即用扇形的面积来模拟数据的大小。

在这里插入图片描述

特点:饼图能有效的反映一个分类下各大小项所占比例,简洁明了,直观易读,甚至可以用颜色表示的更加直观,以达到更加有效的传达信息的目的。

应用场景:饼图常用于客观反应一个统计主体中不同组或不同项的比例,例如采用分类统计某个行业销售情况,社会民众对某种事物的支持程度等,同时应用范围也十分广泛,可以运用于商业,教育,社会,经济等领域。

4)散点图

散点图(Scatterplot)是一种数据可视化图,用于将两个或更多维度的数据图像化,用不同大小和形状的点表示各自的数据集。它们通常用于表示两个变量之间的相互关系,并在分析异常值时非常有用。散点图的性质使其能够探究两个变量之间的关联性,还可以制作回归线或非线性回归图来查看数据之间的趋势。

在这里插入图片描述

特点:散点图提供了相当强大的数据可视化功能,它允许我们研究变量之间的关联性、可视化显著性空间、挖掘任何趋势或模式以及识别异常情况。

应用场景:散点图可用于研究由两个或更多变量组成的多元统计分析。它们通常用于计算两个变量之间的相关性,有助于发现事物间的联系。举例而言,我们可以用散点图来研究婴儿出生体重与出生时期长度之间的联系,以及哪些市场因素(如季节性变化、价格变化等)可能影响销售额等等。

5)箱形图

箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。在各种领域也经常被使用,常见于品质管理。它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比 较。箱线图的绘制方法是:先找出一组数据的上边缘、下边缘、中位数和两个四分位数;然后, 连接两个四分位数画出箱体;再将上边缘和下边缘与箱体相连接,中位数在箱体中间。箱形图是由首位两个四分位数(Q1,Q3)以及中位数(Q2)组成的,它能够反映出一组数据的基本统计特性,如分布的范围、中位数、变异程度等。

在这里插入图片描述

特点:箱形图是概括性较强的一种图,它能够准确反映出数据的主要特点,包括最大值、最小值、四分位数、中位数和实例数,同时观测异常点。

应用场景:箱形图主要用于比较多组数据的分布情况,它非常适用于表示连续变量的分布和比较,是显著进行数据可视化的一种常用工具。

6)区域图

区域图是一种数据可视化技术,用于将空间数据可视化为一个图表。区域图也可用于可视化不同维度的数据,如水泥的价值和份额,以衡量空间分布的影响因素之间的相互关系。

在这里插入图片描述

特点

  • 允许用户可视化每个区域的特定属性和对比不同的地理区域的趋势变化。
  • 可以有效地以地图的形式可视化全球经济变化,从而更清楚地看到特定空间区域、特定变量之间的关系,以便做出决策。
  • 可以有效地显示不同空间环境的差异,让用户可以直观地发现数据和趋势之间的关系。

应用场景

  • 可视化统计数据:可以用区域图可视化人口流动、投票、社会趋势、经济发展等统计数据,以识别特定区域之间的相互影响因素,以便做出更好的决策。
  • 市场分析:利用区域图可以可视化某一产品或服务的流行度、价值和份额等,以便更好地了解特定市场的动态,帮助企业做出更有效的市场营销策略。
  • 全球气候变化:可以用区域图分析全球气候变化,可视化全球温度变化,湿度变化,以及低层大气压的变化,以识别这些变化之间的相互联系,以便更好地应对气候变化。

7)直方图

直方图(Histogram),又称质量分布图,是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。 一般用横轴表示数据类型,纵轴表示分布情况。可以将一组数据中的频率或频数汇总显示在一个图表上,以频率柱的形式表示数据的比例和分布。

在这里插入图片描述

特点

  • 更直观的展示数据分布
  • 易于比较数据之间的差异
  • 易于发现数据中的极端值
  • 可以更直观地发现正态分布、非正态分布以及偏态分布

应用场景

  • 分析客户行为、特征分布
  • 分析产品特征、卖点
  • 分析市场份额
  • 分析需求量

8)气泡图

气泡图(Bubble Chart)是一种常用的散点图表,用于显示多个数据集之间的相互关系,每一个数据集都用一个圆(气泡)来表示,气泡的大小代表数据之间的比较。它还支持修饰符号以表示特定的分组,但这些修饰符号并不支持大小的排序。

在这里插入图片描述

特点

  • 可以有效地同时显示多个变量的关系,显示气泡的数量可以丰富图表的信息量。

  • 适用于研究变量间复杂的多元关系的场景,因为它可以同时表示多个变量的关系。

  • 可以用来比较单独的数据点之间的关系,наглядно и в короткое время 。

应用场景

  • 适用于展示不同指标之间的关系,在比较多个变量时用它可以更加直观地看出每个变量的大小和它们之间的关系。

  • 可以用于衡量政府投资效率,以确定分配资源的最佳方案。

  • 也可以用于比较市场上不同公司的产品,用于研究产品的性价比,以及衡量市场上的相关性。

9)热力图

热力图(Heat Map)是一种基于色彩对数据集进行可视化的方法,可表现出数据空间内各点之间的相关性,从而揭示影响结果的因素的变化趋势。

在这里插入图片描述

特点:热力图的最大特点就是能够穿透和揭示大量数据之间的空间关系,将复杂的结果可视化。它以色调的方式展示变量之间的关系,不同的色调对应着不同的值范围,渐变的颜色向着更多的变量、密集的空间和复杂的表现形式揭示变量之间的关系。

应用场景:热力图在各行业有着广泛的应用,尤其是在市场营销、数据分析及空间数据处理领域,比如用热力图可以分析航班的晚间到达率,可以分析疾病的集中地区,可以整理出某个行业的流行程度等。

10) 时间线图

**时间线图是一种社会科学研究的重要研究工具,它可以用来描述及分析事件的发展脉络和演变特征。**时间线图就像一个大家都能理解的路程图,它可以帮助大家更全面的了解一件事的发生过程,从而帮助人们建立一个时间链,以便更准确的全面的记录事件发展。

在这里插入图片描述

特点:时间线表把一系列活动或项目用时间轴上的图表表示出来,有助于更好更清晰的了解事件发生变化的背景和历程,对于追踪某一活动、调查某一历史社会现象等有着极大的展示作用。

应用场景

  • 学术研究:时间线图可以清晰的表达历史事件的发展演变过程,因而是史学、历史学等学科研究的重要分析工具。
  • 新闻报道:时间线图可以形象的表示出新闻报道的脉络,帮助读者更快更直接的了解事件发展的来龙去脉。
  • 企业管理:企业可以使用时间线图将公司各项管理活动,如项目、交付物的状态和时间的重要性表示出来,以便对管理项目的进度、质量进行更好的跟踪和管理。

11)关系网图

关系网图是一种计算机图形表示形式,它将实体间的关系表示成一组节点和边的网络。它由节点构成,这些节点装载许多属性,节点之间通过连线(边)关联在一定程度上可以反应出实体之间的关系及信息。

在这里插入图片描述

特点

  • 支持非线性的表示和描述,可以清楚的模拟出实体间的复杂关系
  • 可以模拟出情境的各种变化,可以实时跟踪信息
  • 使用灵活可定制,可以方便地满足业务需求。

应用场景

  • 社交关系分析:根据节点的特性,可以建立社会关系网;
  • 认知科学应用:根据特定的节点关系,可以用于脑科学学习及认知的模拟;
  • 路线规划:采用关系网图可以快速搭建路线规划网络,提供最优路径;
  • 计算机网络:可以用于建立计算机网络,模拟网络拓扑结构,解决路由问题等。

12)雷达图

雷达图(Radar Chart)又称作径向图、多变量图或极坐标图,是表示多维度数据的一种形象化的数据图标,通常由集中的一个中心发出多条等长的连线,沿着指定的方向延伸出等值的点。

在这里插入图片描述

特点

  • 雷达图的优点是可以从多角度、多变量来研究和分析构成因素、数据结构;
  • 雷达图比较适用于对对象某一数据方面在各个维度之间存在关系情况下的表示;
  • 雷达图还可以表示多组数据之间的对比;

应用场景

  • 雷达图更适用于表示一组数据中不同类别或特征之间存在相互关联性;
  • 能够很好的表达多个数据之间关系;
  • 适用于分析数据对比,比如多人职业行为的对比,多个公司的工作效率的对比,用来把多个变量的数据比较起来;

7. 60个常用图表