搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
喵喵爱编程
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
基于广义互相关的声源定位研究(Matlab代码实现)_广义互相关matlab代码
2
好程序员web前端分享什么是前端同构渲染_什么是前端的同构渲染
3
android实现全局悬浮球_andlua悬浮球代码
4
简历的项目经历,测试人员书写要注意的几个问题_软件测试的简历中有必要写清每个时间段的项目吗
5
区块链白皮书:基础建设见成效,国产自主生态正发展壮大
6
Nginx学习 : 默认负载均衡轮询及Ip_hash等常用指令介绍_轮序和iphash
7
数据结构题目-图论算法_数据结构图的算法题
8
NoSql非关系型数据库_doris nosql
9
报告收录|海云安入选《2023年粤港澳大湾区金融科技甪端企业20评选报告》
10
最全面的外包公司的解释_联众科技是外包吗知乎
当前位置:
article
> 正文
大数据入门基础_快速的数据流转和动态的数据体系
作者:喵喵爱编程 | 2024-06-28 09:41:22
赞
踩
快速的数据流转和动态的数据体系
1.什么是大数据?有什么特点?
定义:“大数据”的经典定义是可以归纳为4个V:
海量的数据规模(volume)、
快速的数据流转和动态的数据体系(velocity)、
多样的数据类型(variety)、
巨大的数据价值(value
)、
数据的准确性和可信赖度,即数据的质量
(Veracity)
大数据核心是利用多台计算机组成的分布式系统来协调解决单台计算机所不能解决的大数据的计算,存储等问题
特点:体量大,速度快,类型多,价值
2.数据仓库Datawarehouse
从本质上讲,设计数据仓库的初衷是为操作型系统过渡到决策支持系统提供一种工具
或整个企业范围内的数据集成环境,并尝试解决数据流相关的各种问题。
这些问题包括如何从传统的操作型处理系统中提取与决策主题相关的数据,
如何经过转换把分散的、不一致的业务数据转换成集成的、低噪声的数据等。
Bill Inmon 认为数据仓库就是面向主题的(Subject-Oriented )、集成的(Integrated)、
非易失的(Non-Volatile)和时变的(Time-Variant )数据集合,用以支持管理决策。
数据仓库不是可以买到的产品,而是一种面向分析的数据存储方案。对于数据仓库的概念
可以从两个层次理解:
首先,数据仓库用于支持决策,面向分析型数据处理,
不同于提高业务效率的操作型数据库;
其次,数据仓库对分布在企业中的多个异构数据源集成,按照决策主题选择数据
并以新的数据模型存储。此外,存储在数据仓库中的数据一般不能修改。
数据仓库主要有以下特征。
1)面向主题
在操作型数据库中,各个业务系统可能是相互分离的。而数据仓库是面向主题的。
逻辑意义上,每一个商业主题对应于企业决策包含的分析对象。
操作型处理对数据的划分并不适用于决策分析。而基于主题组织的数据则不同,
它们被划分为各自独立的领域,每个领域有各自的逻辑内涵但互不交叉,
在抽象层次上对数据进行完整、一致和准确的描述。一些主题相关的数据通常
分布在多个操作型系统中。
2)集成性
不同操作型系统之间的数据一般是相互独立、异构的。而数据仓库中的数据是对
分散的数据进行抽取、清理、转换和汇总后得到的,这样保证了数据仓库内的数
据关于整个企业的一致性。这些系统内部数据的命名可能不同,数据格式也可能不同。
把不同来源的数据存储到数据仓库之前,需要去除这些不一致。
3)数据的非易失性
操作型数据库主要服务于日常的业务操作,使得数据库需要不断地对数据实时更新,
以便迅速获得当前最新数据,不至于影响正常的业务运作。在数据仓库中只要保存
过去的业务数据,不需要每一笔业务都实时更新数据仓库,而是根据商业需要每隔
一段时间把一批较新的数据导入数据仓库。事实上,在一个典型的数据仓库中,通
常不同类型数据的更新发生的频率是不同的。例如产品属性的变化通常每个星期更新一次,
地理位置上的变化通常一个月更新一次,销售数据每天更新一次。
数据非易失性主要是针对应用而言。数据仓库的用户对数据的操作大多是数据查询或比较
复杂的挖掘,一旦数据进入数据仓库以后,一般情况下被较长时间保留。数据仓库中一般
有大量的查询操作,但修改和删除操作很少。因此,数据经加工和集成进入数据仓库后是
极少更新的,通常只需要定期的加载和更新。
4)数据的时变性
数据仓库包含各种粒度的历史数据。数据仓库中的数据可能与某个特定日期、星期、
月份、季度或者年份有关。数据仓库的目的是通过分析企业过去一段时间业务的经营状况,
挖掘其中隐藏的模式。虽然数据仓库的用户不能修改数据,但并不是说数据仓库的数据是
永远不变的。分析的结果只能反映过去的情况,当业务变化后,挖掘出的模式会失去时效性。
因此数据仓库的数据需要更新,以适应决策的需要。从这个角度讲,数据仓库建设是一个项目,
更是一个过程 。数据仓库的数据随时间的变化表现在以下几个方面。
(1)数据仓库的数据时限一般要远远长于操作型数据的数据时限。
(2)操作型系统存储的是当前数据,而数据仓库中的数据是历史数据。
(3)数据仓库中的数据是按照时间顺序追加的,它们都带有时间属性。
数据仓库主要包括数据的提取、转换与装载(ETL )、元数据、数据集市和操作数据存储等部分
3. 操作-OLTP-事物-transaction和分析-OLAP-历史的区别
联机分析处理(OLAP)
联机分析处理 (OLAP) 的概念最早是由关系数据库之父E.F.Codd于1993年提出的,
他同时提出了关于OLAP的12条准则。OLAP的提出引起了很大的反响,OLAP作为一
类产品同联机事务处理 (OLTP) 明显区分开来。
当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、
联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的关系型数据库的主要应用,
主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的
分析操作,侧重决策支持,并且提供直观易懂的查询结果。下表列出了OLTP与OLAP之间的比较。
OLAP是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,
从而获得对数据的更深入了解的一类软件技术。OLAP的目标是满足决策支持或者满足在多维环
境下特定的查询和报表需求,它的技术核心是"维"这个概念。
“维”是人们观察客观世界的角度,是一种高层次的类型划分。“维”一般包含着层次关系,这种
层次关系有时会相当复杂。通过把一个实体的多项重要的属性定义为多个维(dimension),使
用户能对不同维上的数据进行比较。因此OLAP也可以说是多维数据分析工具的集合。
OLAP的基本多维分析操作有钻取(roll up和drill down)、切片(slice)和切块(dice)、
以及旋转(pivot)、drill across、drill through等。
·钻取是改变维的层次,变换分析的粒度。它包括向上钻取(roll up)和向下钻取(drill down)。
roll up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;
而drill down则相反,它从汇总数据深入到细节数据进行观察或增加新维。
·切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。
如果剩余的维只有两个,则是切片;如果有三个,则是切块。
·旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。
联机事务处理OLTP(on-line transaction processing)
主要是执行基本的、日常的事务处理,比如在银行存取一笔款,就是一个事务交易。OLTP的特点一般有:
1.实时性要求高;
2.数据量不是很大;
3.交易一般是确定的,所以OLTP是对确定性的数据进行存取;
4.并发性要求高并且严格的要求事务的完整,安全性。
联机分析处理OLAP(On-Line Analytical Processing)是数据仓库系统的主要应用,
支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。典型的应用
就是复杂的动态的报表系统。OLAP的特点一般有:
1.实时性要求不是很高,很多应用的顶多是每天更新一下数据;
2.数据量大,因为OLAP支持的是动态查询,所以用户也许要通过将很多数据的统计后
才能得到想要知道的信息,例如时间序列分析等等,所以处理的数据量很大;
3.因为重点在于决策支持,所以查询一般是动态的,也就是说允许用户随时提出查询的要求。
所以在OLAP中通过一个重要概念“维”来搭建一个动态查询的平台(或技术),供用户自己去
决定需要知道什么信息。
区别:
OLTP OLAP
-------------------------------
用户 操作人员,低层管理人员 决策人员,高级管理人员
功能 日常操作处理 分析决策
DB设计 面向应用 面向主题
数据 当前的,最新的细节的,二维的分立的 历史的,聚集的,多维的集成的, 统一的
存取 读/写数十条记录 读上百万条记录
工作单位 简单的事务 复杂的查询
用户数 上千个 上百个
DB大小 100MB-GB 100GB-TB
4.分析ETL,挖掘DataMine的区别
数据分析只是在已定的假设,先验约束上处理原有计算方法,统计方法,将数据分析转化为信息,
而这些信息需要进一步的获得认知,转化为有效的预测和决策,这时就需要数据挖掘。
数据挖掘与数据分析两者紧密相连,具有循环递归的关系,数据分析结果需要进一步进行数据
挖掘才能指导决策,而数据挖掘进行价值评估的过程也需要调整先验约束而再次进行数据分析。
而两者的具体区别在于:
(其实数据分析的范围广,包含了数据挖掘,在这里区别主要是指统计分析)
数据量上:数据分析的数据量可能并不大,而数据挖掘的数据量极大。
约束上:数据分析是从一个假设出发,需要自行建立方程或模型来与假设吻合,而数据挖掘不需要假设,
可以自动建立方程。
对象上:数据分析往往是针对数字化的数据,而数据挖掘能够采用不同类型的数据,比如声音,文本等。
结果上:数据分析对结果进行解释,呈现出有效信息,数据挖掘的结果不容易解释,对信息进行价值评估,
着眼于预测未来,并提出决策性建议。
数据分析是把数据变成信息的工具,数据挖掘是把信息变成认知的工具,如果我们想要从数据中提取一定的
规律(即认知)往往需要数据分析和数据挖掘结合使用。
5.hadoop
Hadoop是一个由Apache所开发的分布式系统基础架构。
用户可以在不了解分布式底层细节的情况下,开发分布式程序。可以充分利用集群的威力进行高速运算和存储。
Hadoop基本内容
1.Hadoop mapreduce
2.Hadoop distributed file system
3.Hadoop common 工具程序和子项目。
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/喵喵爱编程/article/detail/765595
推荐阅读
article
新手
如何入门
Web3
?...
它的主要特点包括去中心化、区块链技术的运用、智能合约的执行、用户主权和数据隐私的强调,以及开放性和可访问性的追求。然而,...
赞
踩
article
【Python】基于
动态
残差
学习
的堆叠式
LSTM
模型
和传统
BP
在股票预测中的应用_
残差
lstm
...
本论文探讨了长短时记忆网络(
LSTM
)和反向传播神经网络(
BP
)在股票价格预测中的应用。首先,我们介绍了
LSTM
和
BP
在...
赞
踩
article
增强大型
语言
模型
(LLM)可访问性:深入探究在单块
AMD
GPU
上
通过
QLoRA
微调
Llama
2的...
基于之前的博客的内容,我们深入研究了一种称为量化低秩调整(
QLoRA
)的参数高效
微调
(PEFT)方法。本次重点是利用QL...
赞
踩
article
AI
应用
| 【
AI
+
物流
】
大
模型
给
物流
业带来哪些“巨变”_
物流
大
模型
...
尽管ChatGPT已经问世一年多了,依然有很多人不相信
大
模型
是一次真正的突破,质疑
大
模型
它不是真的人工智能。在2023年...
赞
踩
article
ChatGPT
:开启
智能
新纪元的
里程碑
_
人工
智能
发展
里程碑
chatgpt
...
任何技术的
发展
都不是一帆风顺的。此外,随着
人工
智能
技术的普及,如何确保技术的安全和伦理问题,也是摆在我们面前的一大挑战。...
赞
踩
article
问题
D
:
D
S
查找
—
二叉树
平衡
因子
(不一样
的
新做法哦)_
d
.
d
s
查找
—
二叉树
平衡
因子
...
文章目录题目实现思路代码附网上常见
的
该题做法,比对学习题目问题
D
:
D
S
查找
—
二叉树
平衡
因子
题目描述
二叉树
用数组存储,...
赞
踩
article
MySQL
Workbench
使用指南
_
mysqlworkbench
执行
的
界面
那些按钮是干嘛
的
...
MySQL
Workbench
是一款功能强大
的
数据库管理工具,它提供了图形化
界面
,方便用户进行数据库
的
设计、开发和管理...
赞
踩
article
解锁
LLM
潜能:
掌握
高效
Prompt
Engineering
技巧...
Prompt
,作为人与模型交互的媒介,在
LLM
应用领域扮演着至关重要的角色。它不仅是问题或请求的载体,更是塑造对话场景、...
赞
踩
article
利用
Python
实现
前端
自动化
打包
部署_基于
python
实现
前端
自动化
打包
部署...
作为一名专职
前端
开发的我,为了帮助解决目前工作中的一些繁琐的工作(主要是处理 excel 数据),解放程序员双手,前阵子...
赞
踩
article
C++
进阶
之路《
C11
新特性》
_
c++
c11
...
C11
_
c++
c11
c++
c11
C11
1.区别...
赞
踩
article
B-
树
的
插入
、
查找
、
删除
及 可执行
的
C语言代码_写出b-
树
的
构建
,
查找
,
插入
和
删除
代码
,
并设计一...
前面讨论
的
查找
都是内查询算法,被查询
的
数据都在内存
。
当查询
的
数据放在外存,
用
平衡二叉
树
作磁盘文件
的
索引组织时,若以结点为...
赞
踩
article
QFileSystemModel
_
qfilesystemodel
自动刷新...
QFileSystemModel
的作用是维护一个目录的信息。因此,它不需要保存数据本身,而是保存这些在本地文件系统中的...
赞
踩
article
PointNet
/
PointNet
++
开
源代码
内容(集百家所长)_
pointnet
++
加
注意力
机制...
感谢链接中各位作者,如侵删。一:
PointNet
论文复现及代码详解-知乎https://zhuanlan.zhihu.c...
赞
踩
article
GDBT
--理解
梯度
提升
原理篇_
梯度
提升
树(
gbdt
)的基
函数
是?...
以决策树为基
函数
的
提升
方法称为
提升
树,
提升
树的模型可以表示为决策树的加法模型,基
函数
一般是cart回归树,
GDBT
是属于...
赞
踩
article
2023
浙江工业大学
数据库
复习提纲
_求出
女同学
的每一
年龄组
超过3人有多少人...
(2)1:N-先将两个实体分别转换为两个关系模式,然后在N端实体转换的关系模式中加入1端实体转换的关系模式的键和联系类型...
赞
踩
article
Installed
Build
Tools
rev
is
ion 31.0.0
is
corrupted...
本文主要介绍在Android Studio 4.1上,新下载模拟器遇到的问题:1、
Installed
Build
Too...
赞
踩
article
五大网络CNN/RNN/GAN/
LSTM
/
Transformer
_
cnn
,
transformer
,
g...
五大网络CNN/RNN/GAN/
LSTM
/
Transformer
原理和实现。_
cnn
,
transformer
,
gancn...
赞
踩
article
嵌入式
系统中
串口
通信
粘包
问题
的
解决方案
(C语言)...
在
嵌入式
系统中,
串口
通信
是一种常见且重要的数据传输方式。然而,由于硬件和软件的限制,
串口
通信
过程中常会出现数据包粘连(即...
赞
踩
article
Win10
Antimalware
Service
Executable
太占内存和CPU的解决办法以...
自从我买了
Win10
笔记本电脑以来,就有个问题不断困扰着我,那就是不明原因的卡,有时候就是突然的游戏卡的动不了直接死机了...
赞
踩
article
IKE
协议
(
因特网
密钥
交换
协议
)...
因特网
密钥
交换
协议
(
IKE
)是一份符合
因特网
协议
安全(IPSec)标准的
协议
。它常用来确保虚拟专用网络VPN(virtu...
赞
踩
相关标签
tcp/ip
ip
教育电商
社交电子
python
学习
lstm
BP
语言模型
llama
人工智能
pdf
chatgpt
web安全
大数据
机器学习
神经网络
tensorflow
数据结构
二叉树
算法
dfs
mysql
数据库
prompt