当前位置:   article > 正文

python数据分析:了解数据分析

python数据分析:了解数据分析

目录

目录:1.1 什么是数据分析

            1.2 数据分析的重要性

            1.3 数据分析的基本流程

               1.4 数据分析常用工具

前言:数据分析是通过明确分析目的,梳理并确定分析逻辑,针对性的收集、整理数据,并采用统计、挖掘技术分析,提取有用信息和展示结论的过程

1.什么是数据分析:

1.2数据分析的重要性:

1.3数据分析的基本流程:

1.3.1熟悉工具

1.3.2明确目的

1.3.3获取数据

1.3.4数据处理

1.3.5数据分析

1.3.6可视化分析

1.3.7验证结果

1.3.8结果呈现

1.3.9数据应用

1.4数据分析常用工具

1.4.1Excel工具

1.4.2Python语言

python学习路线:

python数据分析图表:

1.数据存储

2.数据预处理

总结:

前言:数据分析是通过明确分析目的,梳理并确定分析逻辑,针对性的收集、整理数据,并采用统计、挖掘技术分析,提取有用信息和展示结论的过程

1.什么是数据分析:

  数据分析是利用数学、统计学理论与实践相结合的科学统计分析方法,对Excel数据、数据库中的数据、收集的大量数据、网页抓取的数据分析进行分析,从中提取有价值的信息并形成结论进行展示的过程。数据分析实际就是通过总结数据的规律来解决业务问题,以帮助在实际工作中的管理者做出判断和决策。

数据分析包括如下几个主要内容:

现状分析:分析已经发生了什么。

原因分析:分析为什么会出现这种现状

预测分析:预测未来可能发生什么

1.2数据分析的重要性

  大数据、人工智能时代的到来,数据分析无处不在。数据分析帮助人们做出判断,以便采取适当的措施,发现机遇、创造新的商业价值,以及发现企业自身的问题和预测企业的未来。

  在实际工作中,无论从事哪种行业,什么岗位,从数据分析师、市场营销策划、销售运营、财务管理、客户服务、人力资源,到教育、金融等行业,数据分析都是基本功,不单单是一个职位,而是职场必备技能,能够掌握一定的数据分析技能必然是职场的加分项。

1.3数据分析的基本流程:

1.3.1熟悉工具

  掌握一款数据分析工具至关重要,它能够帮助你快速解决问题,从而提高工作效率。常用的数据分析工具有Excel、SPSS、R语言、Python语言。

1.3.2明确目的

  在数据分析方面,首先要花一些时间搞清楚为什么要做数据分析、分析什么、想要达到什么效果。例如,为了评估产品改版后的效果比之前是否有所提升,或通过数据分析找到产品迭代的方向等。只有明确了分析目的,才能够找到适合的分析方法,也才能够有效地进行数据处理、数据分析和预测等后续工作,最终将得到的结论应用到实际中。

1.3.3获取数据

  数据的来源有很多,像我们熟悉的Excel数据、数据库中的数据、网站数据以及公开的数据集等。那么,获取数据之前首先要知道需要什么时间段的数据,哪张表中的数据,以及如何获得,是下载、复制还是爬取等。

一般有数据分析师岗位需求的公司都会有自己的数据库,数据分析师可以通过SQL查询语句来获取数据库中想要数据。Python已经具有连接sql server、mysql、orcale等主流数据库的接口包,比如pymssql、pymysql、cx_Oracle等。

而获取外部数据主要有两种获取方式,一种是获取国内一些网站上公开的数据资料;一种是通过编写爬虫代码自动爬取数据。如果希望使用Python爬虫来获取数据,我们可以使用以下Python工具:

1.Requests-主要用于爬取数据时发出请求操作。
2.BeautifulSoup-用于爬取数据时读取XML和HTML类型的数据,解析为对象进而处理。
3.Scapy-一个处理交互式数据的包,可以解码大部分网络协议的数据包

1.3.4数据处理

  数据处理是从大量、乱杂无章、难以理解、缺失的数据中,抽取并推导出对解决问题有价值、有意义的数据。数据处理主要包括数据规约、数据清洗、数据加工等处理方法。

1.3.5数据分析

  数据分析过程中,选择适合的分析方法和工具很重要,所选择的分析方法应兼具准确性、可操作性、可理解性和可应用性。但对于业务人员来说,数据分析最重要的是数据分析思维

1.3.6可视化分析

数据分析最后一步是撰写数据分析报告,这也是数据可视化的一个过程。在数据可视化方面,Python目前主流的可视化工具有:

  • Matplotlib-主要用于二维绘图,它能让使用者很轻松地将数据图形化,并且提供多样化的输出格式。
  • Seaborn-是基于matplotlib产生的一个模块,专攻于统计可视化,可以和Pandas进行无缝链接。

按照这个流程,每个阶段所涉及的知识点可以细分如下:

从上图我们也可以得知,在整个数据分析流程,无论是数据提取、数据预处理、数据建模和分析,还是数据可视化,Python目前已经可以很好地支持我们的数据分析工作。

1.3.7验证结果

  通过数据分析我们会得到一些结果,但是这些结果只是数据的主观结果的体现,有些时候不一定完全准确,所以必须要进行验证。例如,数据分析结果显示某产品点击率非常高,但实际下载量平平,那么这种情况,不要轻易定论,这种产品受欢迎,而要进一步验证,找到真正影响点击率的原因,这样才能做出更好的决策

1.3.8结果呈现

  现如今,企业越来越重视数据分析给业务决策带来的有效应用,而可视化是数据分析结果呈现的重要步骤。可视化是以图表方式呈现数据分析结果,这样的结果更清晰、更直观、更容易理解。

1.3.9数据应用

  数据分析的结果并不仅仅把数据呈现出来,而更应该关注的是通过分析这些数据,后面可以做什么?如何将数据分析结果应用到实际业务中菜市学习数据分析的重点。数据分析结果的应用是数据产生实际价值的直接体现,而这个过程需要具有数据沟通能力、业务推动能力和项目工作能力。如果看了数据分析结果后并不知道要做什么,那么这个数据分析就是失败的。

1.4数据分析常用工具

1.4.1Excel工具

  Excel具备多种强大功能,例如创建表格、数据透视表、VBA等,Excel的系统如此庞大,确保了大家可以根据自己的需求分析数据。但是在今天,大数据、人工智能时代,数据量很大的情况下Excel已经无法胜任,不仅处理起来很麻烦而且处理速度也会变慢。从数据分析的层面,Excel也只是停留在描述性分析,如对比分析、趋势分析、结构分析等。

1.4.2Python语言

Python是一门动态的、面向对象的脚本语言,同时也是一门简约,通俗易懂的编程语言。Python入门简单,代码可读性强,一段好的Python代码,阅读起来像是在读一篇外语文章。Python这种特性称为**“伪代码”**,它可以使你只关心完成什么样的工作任务,而不是纠结于Python的语法。

另外,Python是开源的,它拥有非常多优秀的库,可以用于数据分析及其他领域。更重要的是,Python与开源大数据平台Hadoop具有很好的兼容性。因此,学习Python对于有志于向大数据分析岗位发展的数据分析师来说,是一件非常节省学习成本的事。

Python的众多优点让它成为受欢迎的程序设计语言之一,国内外许多公司也已经在使用Python,例YouTube,Google,阿里云等等。

虽然Excel已尽最大努力考虑到数据分析的大多数应用场景,但由于它是定制软件,很多东西都固化了,不能自由地修改。而python非常的强大和灵活,可以编写代码来执行所需的任何操作,从专业和方便的角度来看,它比Excel更加强大,另外,python可以实现Excel难以实现的应用场景、

python学习路线:

python数据分析图表:

一,折线图:

import matplotlib.pyplot as plt
x = [0,1,2]
y = [0,3,2]
plt.plot(x, y)

二,饼状图

labels = [u'Canteen', u'Supermarket', u'Dorm', u'Others']
sizes = [1, 2, 4, 5]
patches, l_text, p_text = plot.pie(sizes, explode=explode, labels=labels, colors=colors,
                                   labeldistance=1.1, autopct='%2.0f%%', shadow=False,
                                   startangle=90, pctdistance=0.6)
# # 设置x,y轴刻度一致,这样饼图才能是圆的
plot.axis('equal')
plot.grid()
plot.show()

分区:score_list = np.random.randint(25, 100, size=20)
print(score_list)
# [27 70 55 87 95 98 55 61 86 76 85 53 39 88 41 71 64 94 38 94]
# 指定多个区间
bins = [0, 59, 70, 80, 100]
score_cut = pd.cut(score_list, bins)
# print(df.groupby(age_groups).count())

import random
import pandas as pd
import numpy as np
from pandas import Series,DataFrame
#用随机数产生一个二维数组。分别是年龄的性别。
df=pd.DataFrame({'Age':np.random.randint(0,70,100),
                'Sex':np.random.choice(['M','F'],100),
                })
#用cut函数对于年龄进行分段分组,用bins来对年龄进行分段,左开右闭
age_groups=pd.cut(df['Age'],bins=[0,18,35,55,70,100])
# print(age_groups)
print(df.groupby(age_groups).count())
 

1.数据存储

对于数据量不大的项目,可以使用excel来进行存储和处理,但对于数据量过万的项目,使用数据库来存储与管理会更高效便捷

2.数据预处理

数据预处理也称数据清洗。大多数情况下,我们拿到手的数据是格式不一致,存在异常值、缺失值等问题的,而不同项目数据预处理步骤的方法也不一样。笔者认为数据分析有80%的工作都在处理数据。如果选择Python作为数据清洗的工具的话,我们可以使用Numpy和Pandas这两个工具库:

Numpy- 用于Python中的科学计算。它非常适用于与线性代数,傅里叶变换和随机数相关的运算。它可以很好地处理多维数据,并兼容各种数据库。
Pandas–Pandas是基于Numpy扩展而来的,可以提供一系列函数来处理数据结构和运算,如时间序列等。

总结:

1. 数据处理::Python提供了许多用于数据处理和清洗的工具,如Pandas库。Pandas提供了强大的数据处理和分析功能,包括数据清洗、数据转换、数据透视等。

2.数据可视化: Matplotlib和Seaborn是Python中常用的数据可视化库。这些库可以创建各种图表,如折线图、柱状图、散点图等,以帮助你理解和解释数据。

3.机器学习: Python的机器学习库如Scikit-learn和TensorFlow可以帮助你进行各种机器学习任务,如分类、聚类、回归等。

4.深度学习:如果你需要进行更复杂的机器学习任务,如生成模型或神经网络,那么使用Python的深度学习库如PyTorch或TensorFlow是非常好的选择。

5. 交互式数据分析:交互式数据分析通常涉及快速的实时探索和洞察。Python中的Jupyter Notebook是一种很好的工具,用于实时分析大量数据。

总的来说,Python在数据分析领域非常强大,因为它提供了许多工具和库,可以让你轻松地处理和分析大量数据,同时还可以进行数据可视化、机器学习等高级任务。在数据分析过程中,要注重数据清洗、特征选择、模型选择、模型评估等多个环节,以便更好地提取有用的信息。

本文文章链接:python数据分析:了解数据分析-CSDN博客

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/525397
推荐阅读
相关标签
  

闽ICP备14008679号