当前位置:   article > 正文

3_database

3_database

init

background

数据可以说是IT里面非常重要的内容, 各种数据的场景层出不穷,例如关系型数据库mysql等, 非关系型的数据库redis, mongodb等等。 然后这些数据还有一些

summary

Content

数据库和存储的整体架构

我之前看了一些文章数据库的发展上中下,差不多知道了数据库的架构和发展了,在最开始mysql解决关系型, 随着数据越来越大, 开始有nosql, nosql中有kv类型的redis和冷热存储的一些数据库。 还有一些用于分析的列数据库hbase,Hbase是运行于HDFS文件系统之上。 此外还有一些图数据库和文档数据库和ai数据库等等。 而存储是他们底层的磁盘存储结构, 有好几种, 例如lsm和b+树。 不同的数据库底层选择的磁盘存储引擎是不一样的。

关系型

  1. 怎么入门mysql
    mysql我日常不怎么用的, 就查看https://blog.csdn.net/shenmingxueIT/article/details/112118070?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522162018818316780265441696%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=162018818316780265441696&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2blogfirst_rank_v2~rank_v29-4-112118070.nonecase&utm_term=mysql&spm=1018.2226.3001.4450 和我之前学习施磊老师的笔记(思维导图,懒得放过来了, 而且排版很麻烦, 只记得索引查执行语句很深入), 此还有菜鸟教程就行了。

非关系型kv数据库

  1. 怎么使用和学习redis
    参照这个大佬的笔记, https://blog.csdn.net/shenmingxueIT/article/details/114709757?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522162018818316780265441696%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=162018818316780265441696&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2blogfirst_rank_v2~rank_v29-9-114709757.nonecase&utm_term=mysql&spm=1018.2226.3001.4450, 还有自己之前整理的笔记。
开源的分布式kv缓存

参照一个腾讯早鸟计划的文档, 写的非常不错。 理解了分布式kv存储系统是怎么设计的。

非关系分布式冷热kv数据库

  1. 为什么有了redis还需要其他分布式kv数据库?
    首先我们要知道redis是分布式缓存,但是占用内存太多了,一般大公司都是冷热存储,一般冷热存储的话数据会使用rockdb这种lsm树或者blotdb这种b+树将key和value放到磁盘中。一般都去数据就是先内存再磁盘。对于分布式的话我们需要注意数据会分片,还有每个分片都会有备份。一般还会有一个管理服务器去转发用户的请求。
  2. 冷数据kv一般怎么弄的?

大数据相关技术

关于大数据基础知识的相关学习
介绍
1 背景: 作者刚开始说了非结构数据包含的日常工作多, 影藏价值大, 但是挖掘进展比较慢。
hadoop中的各个组成 : 1. hdfs作为一个文件系统存储元数据; hbase是一个keyvale数据库, 基于hdfs文件系统的, 并且使用mapreduce对Hbase中的数据进行操作 , 而各个节点的管理通过zookeeper| hive就是一个可以将sql 转成mapreduce的语言接口程序, 帮助开发人员直接更快的分析 | 此外还有sqoop这种将结构数据库数据导入过来的工具, flume这个日志收集工具等等。
作者今后表达数据随着存储工具的完善统一, 未来重心在数据上。
大数据软件基础

  1. 首先要掌握常见Linux的操作 | 之后需要知道Java中的几个重要的语法, 类和接口、 泛型编程, 类中的内部类, 反射(在运行阶段动态创建和运行类)和注解
    大数据存储技术
    hdfs
    作者首先介绍了普通程序怎么通过read 和write等日常文件系统的操作去操作这个分布式的文件系统, hdfs有很好的容错机制,主从备份, 单一节点写入
    Hbase
    作者还说了nosql中的列存储数据库Hbase ,这个表类似如下图, 列的话是有列族的, 就是前面会增加一个族类, 此外还会有时间的属性。 行的话就是一些字符串这些, 可以范围查找, 单位查找和全表查找。 | 之后简单说了一些其他的数据库, 例如图数据库和Redis。

hadoop
作者首先安装了hadoop分布式系统, 并且分别通过Hadoop和java程序去操作了HDFS分布式文件系统, 例如上传和下载文件。
之后作者安装了hbase, 这个就是个数据库, 然后提供了shell的cudr工作, 还有就是Java的。
mapreduce
前面介绍的是文件存储和表的创建, MapReduce可以实现的是对分布式表进行处理, 对于10G以上的带下的文件, 很难一次直接加载到内存中, 就必须要使用这些了。 例如对于一个统计文件单词频率的工作, 先用map将单词分开, 然后使用reduce统计, 最后在main中设置job 编译成jar包进行运行, 最终得到结果。
数据处理与接入技术
数据采集用flume关于某个目录, 将数据直接通过管道放到HDFS文件中, 数据库到HDFS用sqoop, 此外还可以通过kafka接入数据到HDFS中, kafka安全性和性能好, 一般是别人的线上日志或者啥业务数据接入到flume到自己的文件目录, 然后再接入kafka慢慢的将数据写入到HDFS。 | 对于别人的数据库数据就直接使用sqoop这些接入。
https://www.zhihu.com/question/36688175/answer/68692597
数据仓库和联机分析处理
数据仓库就是一类业务主题数据的集合, 一般是通过ETL接入数据源进行清洗, 这些数据包含结构的和非结构的,最后通过数据集市开放接口让前台进行分析和决策。 | hive就是 可以将一个具有表结构的文件构建成一个数据库表, 并且提供各种查询功能 , 你需要先定义好一个表的结构, 然后将外部的具有关系结构的表导入进来, 这就成了一个离线的数据仓库 | 然后你就能使用kylin等web系统开发上层操作数据的工具了|
Subtopic 1
大数据分析技术 和spark
作者主要介绍了一些推荐、聚类等算法的使用, 主要就是用Hadoop中的一个工具用Java做。 | spark就是一个带代替MapReduce的工具, 将计算中间过程放到内存中,提升了计算速度。

workflow

常用的mysql操作语句

分布式kv冷热数据库的调研

reference()

version()

  1. 2023年2月4日19:45:55调研第一个版本, 只能说基本完成架构, 后续的还需要进行扩充基本知识的架构, 然后才能开始调研分布式存储。
声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop】
推荐阅读
相关标签
  

闽ICP备14008679号