赞
踩
讨论大数据架构,不可避免要讨论传统的结构化存储和数据仓库。
PS:最原始的结绳记事、仓颉造字不在咱们讨论范围内哈,咱们主要讨论计算机出现以后的数据存储。
我们对数据存储方式的认知顺序一般是:
注意:这个演变过程,并不代表后者代替前者,每种方式都有其适合的应用场景,多种存储方式在一定时间内会是同时存在。他们的优缺点分析如下:
存储方式 | 简介 | 优点 | 缺点 |
结构化 数据库 |
也称作行数据库,使用二维表结构来逻辑表达现实中的信息。 | 通过事务保持数据一致性、数据可更新且开销很小,可以进行Join等复杂查询。 | 需sql解析,数据量大和高并发场景读写性能不足; 为保证数据一致性,加锁影响并发操作; 不能非结构化存储; 价格高、扩展复杂; 据说有个“阻抗失谐”问题,自行脑补吧。 |
数据仓库 | 面向主题的、整合的、随时间变化的、相对稳定的历史数据集合,支撑历史的、分析的和商务智能的数据需求。 | 面向主题 效率比较高 数据质量较高 扩展性较高 ... |
数据集中存储,查找和编译时比较长; 技术难度造成人员成本高; 采购硬件和软件成本较高; |
大数据 |
存储、管理、分析超出了传统数据库软件工具能力范围的数据集合,具有海量、多样性、价值密度低、处理速度快、真实性的特性。 | 提高生产力 降低硬件成本 更好的决策 改善客户服务 更好的创新 ... |
基础架构和数据分析方面面临诸多挑战。 资源利用率低 应用部署复杂 运营成本高 高能耗等 |
抛开结构化存储和数据仓库,咱们重点讨论大数据架构。
针对传统数据存储方式的种种缺陷,近些年出现了多种解决方案,其中以Hadoop体系为首的大数据分析平台逐渐表现出优异性,围绕Hadoop体系的生态圈也不断的变大。对于Hadoop系统来说,基本上解决了传统数据仓库的瓶颈问题,但是也带来一系列的问题(没有完美的架构,只有合适的架构):
(1)从数据仓库转到大数据架构,多数不能平滑演进,基本等于推翻重做。
(2)大数据下的分布式存储强调数据的只读性,类似于Hive,HDFS这些存储方式都不支持update(或不擅长),写操作对并行的支持也不是很好,这些特性导致其应用场景具有一定的局限性。
大数据架构也不能够满足任何场景使用,那么一般在什
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。