搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
盐析白兔
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
Web服务器和应用服务器的区别与联系_web服务器 应用服务器
2
ECS常用命令合集_ecs命令显示所用数据
3
计算机经典书籍电子书合集(适合计算机学生学习以及程序员笔试、面试)_计算机类金题训练电子书
4
用220行python代码实现2048小游戏(源码和详细注释以及分析)_2048python代码
5
Superhuman 邮箱的替代方案是什么?
6
二路归并排序_归并排序的比较次数与初始状态有关吗
7
python笔记_格式化输出
8
docker下安装部署Apache DolphinScheduler 超详细(三)_dolphinscheduler datax docker
9
Git从入门到项目实战,一篇文章吃透Git_git管理项目经验
10
FastDFS知识介绍及安装部署_storageclient
当前位置:
article
> 正文
大数据01-导论
作者:盐析白兔 | 2024-02-19 15:19:25
赞
踩
大数据01-导论
零、文章目录
大数据01-导论
1、数据与数据分析
**数据:是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。**数据可以是连续的值,比如声音、图像,称为模拟数据;也可以是离散的,如符号、文字,称为数字数据。
数据分析:指用适当的统计分析方法对收集来的数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。
商业领域中,**数据分析能够给帮助企业进行判断和决策,以便采取相应的策略与行动。**例如,企业高层希望通过市场分析和研究,把握当前产品的市场动向,从而指定合理的产品研发和销售计划,这就必须依赖数据分析才能完成。生活中最著名的例子便是天气专家通过对气象数据进行分析,并且制作出天气预报,根据预报,我们会做出相应的策略,是带伞还是加件毛衣。
2、数据分析作用
数据分析的目的是把隐藏在数据背后的信息集中和提炼出来,总结出所研究对象的内在规律,帮助管理者进行有效的判断和决策。
数据分析在企业日常经营分析中主要有三大作用:
(1)现状分析(分析当下的数据)
第一,告诉你企业现阶段的整体运营情况,通过各个指标的完成情况来衡量企业的运营状态,以说明企业整天运营是好了还是坏了,好的程度如何,坏的程度又到哪里。
第二,告诉你企业各项业务的构成,让你了解企业各项业务的发展以及变动情况,对企业运营状况有更深入的了解。
(2)原因分析(分析过去的数据)
经过现状分析,我们对企业的运营情况有了基本了解,但不知道运营情况具体好在哪里,差在哪里,是什么原因引起的。这时就需要开展原因分析,以进一步确定业务变动的具体原因。
例如2020年2月运营收入下降50%,是什么原因导致的呢,是各项业务收入都出现下降,还是个别业务收入下降引起的,是各个地区业务收入都出现下降,还是个别地区业务收入下降引起的。这就需要我们开展原因分析,进一步确定收入下降的具体原因,对运营策略做出调整与优化。
(3)预测分析(结合数据预测未来)
在了解企业运营现状后,有时还需要对企业未来发展趋势做出预测,为制订企业运营目标及策略提供有效的参考与决策依据,以保证企业的可持续健康发展。预测分析一般通过专题分析来完成,通常在制订企业季度、年度等计划时进行,其开展的频率没有现状分析及原因分析高。
3、数据分析基本步骤
张文霖在《数据分析六步曲》说,典型的数据分析应该包含以下几个步骤:
(1)明确分析目的和思路
首先明白本次的目的,梳理分析思路,并搭建整体分析框架,把分析目的分解,化为若干的点,清晰明了,即分析的目的,用户什么样的,如何具体开展数据分析,需要从哪几个角度进行分析,采用哪些分析指标(各类分析指标需合理搭配使用)。
同时,确保分析框架的体系化和逻辑性,简单来说就是先分析什么,后分析什么,使得各个分析点之间具有逻辑联系。避免不知从哪方面入手以及分析的内容和指标被质疑是否合理、完整。所以体系化就是为了让你的分析框架具有说服力。
要想使分析框架体系化,就需要一些营销、管理等理论为指导,结合着实际的业务情况进行构建,这样才能保证分析维度的完整性,分析结果的有效性以及正确性。比如以用户行为理论为指导,搭建的互联网网站分析指标框架如下:
把跟数据分析相关的营销、管理等理论统称为数据分析方法论
。比如用户行为理论、PEST分析法、5W2H分析法等等。
(2)数据收集
一般数据来源主要有以下几种方式:
数据库:每个公司都有自己的业务数据库,存放从公司成立以来产生的相关业务数据。这个业务数据库就是一个庞大的数据资源,需要有效地利用起来。
公开出版物:可以用于收集数据的公开出版物包括《中国统计年鉴》《中国社会统计年鉴》《中国人口统计年鉴》《世界经济年鉴》《世界发展报告》等统计年鉴或报告。
互联网:随着互联网的发展,网络上发布的数据越来越多,特别是搜索引擎可以帮助我们快速找到所需要的数据,例如国家及地方统计局网站、行业组织网站、政府机构网站、传播媒体网站、大型综合门户网站等上面都可能有我们需要的数据。
市场调查:进行数据分析时,需要了解用户的想法与需求,但是通过以上三种方式获得此类数据会比较困难,因此可以尝试使用市场调查的方法收集用户的想法和需求数据。
(3)数据处理
数据处理是指对收集到的数据进行加工整理,形成适合数据分析的样式,它是数据分析前必不可少的阶段。数据处理的基本目的是从大量的、杂乱无章、难以理解的数据中,抽取并推导出对解决问题有价值、有意义的数据。
数据处理主要包括
数据清洗、数据转化、数据提取、数据计算
等处理方法。一般拿到手的数据都需要进行一定的处理才能用于后续的数据分析工作,即使再“干净”’的原始数据也需要先进行一定的处理才能使用。
数据处理是数据分析的基础。通过数据处理,将收集到的原始数据转换为可以分析的形式,并且保证数据的一致性和有效性。
(4)数据分析
数据分析是指用适当的分析方法及工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程。由于数据分析多是通过软件来完成的,这就要求数据分析师不仅要掌握各种数据分析方法,还要熟悉数据分析软件的操作。
数据挖掘其实是一种高级的数据分析方法,就是从大量的数据中挖掘出有用的信息,它是根据用户的特定要求,从浩如烟海的数据中找出所需的信息,以满足用户的特定需求。数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。一般来说,数据挖掘侧重解决四类数据分析问题:分类、聚类、关联和预测,重点在寻找模式和规律。数据分析与数据挖掘的本质是一样的,都是从数据里面发现关于业务的知识。
(5)数据展现
一般情况下,数据是通过表格和图形的方式来呈现的,我们常说用图表说话就是这个意思。常用的数据图表包括饼图、柱形图、条形图、折线图、散点图、雷达图等,当然可以对这些图表进一步整理加工,使之变为我们所需要的图形,例如金字塔图、矩阵图、漏斗图等。
大多数情况下,人们更愿意接受图形这种数据展现方式,因为它能更加有效、直观地传递出分析所要表达的观点。一般情况下,能用图说明问题的就不用表格,能用表格说明问题的就不要用文字。
(6)报告撰写
数据分析报告其实是对整个数据分析过程的一个总结与呈现。通过报告,把数据分析的起因、过程、结果及建议完整地呈现出来,供决策者参考。
一份好的数据分析报告,首先需要有一个好的分析框架,并且图文并茂,层次明晰,能够让阅读者一目了然。结构清晰、主次分明可以使阅读者正确理解报告内容;图文并茂,可以令数据更加生动活泼 ,提供视觉冲击力,有助于阅读者更形象、直观地看清楚问题和结论,从而产生思考。
另外,数据分析报告需要有明确的结论,没有明确结论的分析称不上分析,同时也失去了报告的意义,因为我们最初就是为寻找或者求证一个结论才进行分析的,所以千万不要舍本求末。
最后,好的分析报告一定要有建议或解决方案。作为决策者,需要的不仅仅是找出问题,更重要的是建议或解决方案,以便他们做决策时作参考。所以,数据分析师不仅需要掌握数据分析方法,而且还要了解和熟悉业务,这样才能根据发现的业务问题,提出具有可行性的建议或解决方案。
4、大数据时代
(1)概述
最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”
进入2012年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。
CCTV纪录片《大数据时代》,是国内首部大数据产业题材纪录片,节目细致而生动地讲述了大数据技术在政府治理、民生服务、数据安全、工业转型、未来生活等方面给我们带来的改变和影响。
(2)海量数据的挑战
公开数据显示,互联网搜索巨头百度2013年拥有数据量接近EB级别。阿里、腾讯都声明自己存储的数据总量都达到了百PB以上。此外,电信、医疗、金融、公共安全、交通、气象等各个方面保存的数据量也都达到数十或者上百PB级别。全球数据量以每两年翻倍的速度增长,在2010年已经正式进入ZB时代,2020年全球数据总量达到44ZB。
究竟怎么去存储庞大的数据,是企业面临的首要问题。传统的数据存储模式存储容量是有大小限制或者空间限制的,怎么去设计出一个可以支撑大量数据的存储方案是开展数据分析的首要前提。
解决了海量数据的存储问题,接下来面临的海量数据的计算问题也是比较让人头疼,因为企业不仅追求可以计算,还会追求计算的速度、效率。
以目前互联网行业产生的数据量级别,要处理这些数据,就需要一个更好、更便捷的分析计算方式了。传统的数据处理方式显然力不从心,而且效率也会非常低下。这正是传统数据分析领域面临的另一个挑战,如何去分析、计算海量数据。
(3)大数据的特点(5V特征)
Volume:数据量大,包括采集、存储和计算的量都非常大;
Variety:种类和来源多样化。包括结构化、半结构化和非结构化数据;
Value:数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵;
Velocity:数据增长速度快,处理速度也快,时效性要求高;
Veracity:数据的准确性和可信赖度,即数据的质量。
(4)大数据的应用场景
电商方面:精准广告位,通过对用户的浏览行为,点击行为等进行大数据采集,分析,挖掘用户的二层三层喜欢,扩大产出。
传媒方面:猜你喜欢,通过对受众人群机型大数据分析,结合对应算法,对受众喜欢的进行交互推荐。
金融方面:理财投资,通过对个人的信用评估,风险承担能力评估,集合众多理财产品、推荐响应的投资理财产品。
交通方面:目前,交通的大数据应用主要在两个方面:一方面通过对车流量等海量数据的收集,估算,预测该路段一定时间内的车流量情况,给用户提供便利,合理进行道路规划;另一方面可以利用大数据来实现即时信号灯调度,提高已有线路通行能力。
电信方面:智慧营业厅,通过对用户当前的行为习惯、偏好,节假日的相应数据变化,调节自身业务结构,做到按需分配。
安防方面:人脸识别,通过人脸识别,匹配,存储用户数据,结合人工智能,分析及甄别用户行为,预防犯罪行为发生。
医疗方面:智慧医疗,通过对海量病例大数据的存储,匹配、检索、结合用户的饮食、行为等习惯,搭建智慧医疗体系。
声明:
本文内容由网友自发贡献,转载请注明出处:
【wpsshop博客】
推荐阅读
article
1
月
比特
币
ETF
终上市
,
公链
稳健发展...
2024 年
1
月
,
美国
比特
币
ETF
正式上市
,
Sui、Ronin 和 Manta Pacific 等
公链
崭露头角...
赞
踩
article
element
ui样式修改
input
篇_
element
ui
input
textarea
样式...
element
ui修改
input
样式
input
样式修改主要用到 .el-
input
__inner(类名)直接在里面改就好...
赞
踩
article
OpenCV
-42
直方图
均匀
化...
直方图
均匀
化是通过拉伸像素强度的分布范围,使得在0~255灰阶上的分布更加
均匀
,提高图像的对比度。达到改善图像主管视觉效...
赞
踩
article
elementUi
中
input
输入
字符
光标
在
输入
一个
字符
后,
光标
失去焦点...
elementUi
中
input
输入
字符
光标
在
输入
一个
字符
后,
光标
就退出,无法
输入
需要再次聚焦然后
输入
一个
字符
又再次退出首...
赞
踩
article
Mybatis
(2)
_
@
select
...
/定义resultMap < resultMap id = " userResultMap " type = " Use...
赞
踩
article
Buuctf
[
网鼎杯
2020
青龙组]
AreUSerialz
...
[
网鼎杯
2020
青龙组]
AreUSerialz
打开题目仔细阅读源码[详细]
-->
赞
踩
article
Fabric
自动化部署
的
简单
使用
_
fab
deploy
命令
的
用法...
Fabric
使用
ssh(通过 paramiko 库)在多个服务器上批量执行任务、上传、下载。
使用
前首先需要安装
fab
...
赞
踩
article
位
运算符
(&
,
|
,
~
,
^
,
同
或
,
>>
,
<<)_
同
或
符号...
目录1.按
位
与(&)2.按
位
或
(|)3.按
位
取反(~)4.异
或
(^)5.
同
或
(~)6.左移(<<)7.右移(>>)什么是...
赞
踩
article
卷积
神经网络
基础_
多通道
卷积
层
的偏置...
一、
卷积
本来想自己写一点,发现了很不错的一篇博客,就不班门弄斧了。什么是
卷积
? - 知乎一句话概括:某一时刻,某点的能量...
赞
踩
article
从
汉诺塔
学习
递归
类
问题
的
求
解
方法
_使用
递归
的
方法
求
区间[a,b]中所有
数
相加之和。...
(可忽略)背景:首先,关于标题
的
大言不惭,表示抱歉。目前,网上有很多关于
汉诺塔
求
解
的
博文,我看了一些,感觉大致相同。首先...
赞
踩
article
qt 多重
继承
_
QObject
多重
继承
...
I am trying to use mix in classes for C++/Qt to provide a wh...
赞
踩
article
vue
循环
遍历
动态数组子
组件
(含子
组件
表单校验)_
vue
遍历
展示
多个
组件
...
父
组件
引用
[详细]
-->
赞
踩
article
GraspNet
通用物品
抓取
数据
集...
GraspNet
通用物品
抓取
数据
集
GraspNet
是一个通用物品
抓取
的开源项目,现包含
GraspNet
-1Bilii...
赞
踩
article
Opencv
教程:
人工智能
图像处理
入门
案例
实战_
opencv5
人工智能
...
1、简介opencv是一个计算机视觉领域的开源库,提供了很多
图像处理
算法模型和数据处理能力,使用opencv可以完成很多...
赞
踩
article
Hive
SQL
的 DQL操作...
3.
Hive
支持分桶查询, cluster by + 分桶排序字段 (分桶排序必须是同一字段,且排序只能是升序),如...
赞
踩
article
>
C#>
>
=>>实用详解_
>
c#>
>
=>
>
...
我们在使用
>
C#>编程的时候,经常会用到
>
=>
>
这个符号,但是大家理解过其中的具体用法吗?
>
=>
>
主要有两方面的作用,一个限制属性状...
赞
踩
article
Unity
使用
Strip
的总结_
unity
managed
strippint
level
...
Unity
使用
Strip
的总结Code
Strip
开启方法强制保留对比
Strip
中遇到的问题及解决方法类型转换错误无法为...
赞
踩
article
关于
计算机
视觉中
通道
的
一些问题和解答_
为什么
复杂
的
特征
要用更多
的
通道
表示
...
而在其他颜色空间中,如HSV(色调、饱和度、明度)或YUV(亮度、色度),可能会使用更多
的
通道
来
表示
颜色或其他属性。此外...
赞
踩
article
【QT】属性
浏览器
QtTreePropertyBrowser
_
qttreepropertybrows...
待完善
_
qttreepropertybrowser
按
字母
排序
qttreepropertybrowser
按
字母
排序
...
赞
踩
article
箭头
函数
的
使用
_
箭头
函数
大括号的
使用
...
箭头
函数
的
使用
基本用法为什么要有
箭头
函数
和普通
函数
的区别不绑定this不绑定arguments什么时候不能用
箭头
函数
基本...
赞
踩
相关标签
区块链
公链
opencv
人工智能
计算机视觉
python
均值算法
javascript
ui
ViewUI
mybatis
java
数据库
web
安全
fabric
自动化
深度学习
数据结构
递归算法
qt 多重继承
vue
图像处理
opencv目标检测