赞
踩
首先对于数仓我们应该知道,相比较于传统数据库来说,它需要的操作要相对简单一些,在数仓中没有联机更新数据的需要,只有一些非常少的锁定需要
然后了解一下数据仓库都有什么需求
对于数仓而言,最本质的特点就是管理大数据量的数据,传统数据库一张表可能记录十万百万条数据,而数仓中一张hive表在TB级别是允许的
在谈及到数据仓库的时候,技术和效率是我们要考虑的,除此存储和处理的开销我们同样需要考虑
数仓的多种存储介质,不仅体现在DASA,同时服务器、日志等等介质
一个满载的数据仓库应该是存放在多种存储层次上
对于数据的访问具有不确定性,不知道查找的数据存放在数仓的哪里
数仓的关键也在可以灵活的和对数据的不可预测的访问,这能够实现数仓的快速方便的访问数据
实现方式也有很多,比如双重粒度、数据分割、索引等等
可以通过多种技术接口获取和传输数据
接口不仅要高效,还要能够方便使用
并行存储可以提高数据仓库的存储效率
有关数据的数据,可以记录表的结构,表的属性,库的数据源,前世今生等等
可以满足一次查询一组数据
可以满足一次查询一条数据
能够支持一个或多个索引
有sql接口
能够插入、修改、删除数据
多级索引
映像的方法
将部分或全部索引装入内存
创建选择索引或范围索引
大数据量的入库出库,带来了过多的磁盘io,计算机的io资源比cpu资源少的多
常用的压缩算法也有很多,比如bzip、lzo、snap
和传统数据库的加锁操作很相似了,为了保证两个或两个以上的用户对同一个数据进行修改
但是又有很多不同,因为在数据仓库中很少涉及到更新,过多的依赖锁会造成资源浪费和运行代价,但是还是要仔细的设计锁结构
当可以从二级存储设备上恢复时,就可能节约大量开支。
如果没有能从二级存储设备上快速恢复的能力,通常的做法是将 DASD的数目增加一倍,然后将增加出的数目作为恢复/复原的存储区、
多维数据库管理系统也称作是数据集市,可以看作是小型的数据仓库,数仓面向的是全面数据,而数据集市更像是一种面向单个主题或单个领域的小型数据仓库
相比较,数据集市的主题更细化,数据量更小
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。