赞
踩
数据可以说是IT里面非常重要的内容, 各种数据的场景层出不穷,例如关系型数据库mysql等, 非关系型的数据库redis, mongodb等等。 然后这些数据还有一些
我之前看了一些文章数据库的发展上中下,差不多知道了数据库的架构和发展了,在最开始mysql解决关系型, 随着数据越来越大, 开始有nosql, nosql中有kv类型的redis和冷热存储的一些数据库。 还有一些用于分析的列数据库hbase,Hbase是运行于HDFS文件系统之上。 此外还有一些图数据库和文档数据库和ai数据库等等。 而存储是他们底层的磁盘存储结构, 有好几种, 例如lsm和b+树。 不同的数据库底层选择的磁盘存储引擎是不一样的。
参照一个腾讯早鸟计划的文档, 写的非常不错。 理解了分布式kv存储系统是怎么设计的。
关于大数据基础知识的相关学习
介绍
1 背景: 作者刚开始说了非结构数据包含的日常工作多, 影藏价值大, 但是挖掘进展比较慢。
hadoop中的各个组成 : 1. hdfs作为一个文件系统存储元数据; hbase是一个keyvale数据库, 基于hdfs文件系统的, 并且使用mapreduce对Hbase中的数据进行操作 , 而各个节点的管理通过zookeeper| hive就是一个可以将sql 转成mapreduce的语言接口程序, 帮助开发人员直接更快的分析 | 此外还有sqoop这种将结构数据库数据导入过来的工具, flume这个日志收集工具等等。
作者今后表达数据随着存储工具的完善统一, 未来重心在数据上。
大数据软件基础
hadoop
作者首先安装了hadoop分布式系统, 并且分别通过Hadoop和java程序去操作了HDFS分布式文件系统, 例如上传和下载文件。
之后作者安装了hbase, 这个就是个数据库, 然后提供了shell的cudr工作, 还有就是Java的。
mapreduce
前面介绍的是文件存储和表的创建, MapReduce可以实现的是对分布式表进行处理, 对于10G以上的带下的文件, 很难一次直接加载到内存中, 就必须要使用这些了。 例如对于一个统计文件单词频率的工作, 先用map将单词分开, 然后使用reduce统计, 最后在main中设置job 编译成jar包进行运行, 最终得到结果。
数据处理与接入技术
数据采集用flume关于某个目录, 将数据直接通过管道放到HDFS文件中, 数据库到HDFS用sqoop, 此外还可以通过kafka接入数据到HDFS中, kafka安全性和性能好, 一般是别人的线上日志或者啥业务数据接入到flume到自己的文件目录, 然后再接入kafka慢慢的将数据写入到HDFS。 | 对于别人的数据库数据就直接使用sqoop这些接入。
https://www.zhihu.com/question/36688175/answer/68692597
数据仓库和联机分析处理
数据仓库就是一类业务主题数据的集合, 一般是通过ETL接入数据源进行清洗, 这些数据包含结构的和非结构的,最后通过数据集市开放接口让前台进行分析和决策。 | hive就是 可以将一个具有表结构的文件构建成一个数据库表, 并且提供各种查询功能 , 你需要先定义好一个表的结构, 然后将外部的具有关系结构的表导入进来, 这就成了一个离线的数据仓库 | 然后你就能使用kylin等web系统开发上层操作数据的工具了|
Subtopic 1
大数据分析技术 和spark
作者主要介绍了一些推荐、聚类等算法的使用, 主要就是用Hadoop中的一个工具用Java做。 | spark就是一个带代替MapReduce的工具, 将计算中间过程放到内存中,提升了计算速度。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。