搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
我家小花儿
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
跨平台应用开发进阶(四十一)使用Xcode打包 iOS 应用 archive 时四种证书的区别详解_xcode编译时 archive
2
[职场] 什么是高水平简历 #经验分享#经验分享#经验分享
3
计算机毕业设计 | SpringBoot+vue的图书馆管理系统(附源码)_图书管理系统vue代码
4
KNN、SVM、MLP、K-means分类实验_适合knn实验的经典数据集有哪些?
5
Redis高级面试题汇总
6
element官方离线文档_element plus离线文档
7
Java毕业设计基于Springboot+vue的健身房信息管理系统 开题报告+论文_java毕业设计开题报告
8
【机器学习 复习】第7章 集成学习(小重点,混之前章节出题但小题)
9
2024面向 AI 智算数据中心网络架构与连接技术的发展路线展望白皮书(20页)_罗森伯格:2024面向 ai 智算数据中心网络架构与连接技术的发展路线展望白皮书 下载
10
Baidu Comate智能编码助手 - 助力程序员“码”力全开,推动团队降本增效之路_comate代码助手
当前位置:
article
> 正文
大数据采集与处理期末复习题_大数据期末考试试题
作者:我家小花儿 | 2024-07-06 06:34:23
赞
踩
大数据期末考试试题
填空:
数据产生方式经历的阶段:运营式系统阶段、用户原创内容阶段和感知式系统阶段
大数据的四个特点:数据量大、数据类型繁多、处理速度快和价值密度低。
大数据的四种范式:实验、理论、计算、数据密集型
大数据计算模式:批处理计算、流计算、图计算、查询分析计算
Hadoop的特性:高可靠性、高效性、高可扩展性、高容错性、成本低、运行在Linux平台上、支持多种编程语言
Hadoop的核心:HDFS和MapReduce
分布式文件系统的节点:一类叫主节点(名称节点)或从节点(数据节点)
Hbase:采用行键、列族、列限定符和时间戳进行索引
Hbase:三个主要的功能组件:库函数,链接到每个客户端;一个Master主服务器;许多个Region服务器
Hbase:三层结构 Zookeeper文件 -ROOT-表 .META.表
Hbase系统架构:客户端、Zookeeper服务器、Master主服务器、Region服务器,一般采用HDFS作为底层数据存储
NoSQL数据库三个特点:灵活的可扩展性、灵活的数据模型、与云计算紧密融合
关系数据库无法满足Web2.0的需求的三个方面:无法满足海量数据的管理需求、无法满足数据高并发的需求、无法满足高可扩展性和高可用性的需求。
NoSQL的四大类型:键值数据库、列族数据库、文档数据库、图数据库
NoSQL三大基石:CAP、BASE和最终一致性
CAP指的是:C 一致性 A 可用性 P 分区容忍性 三选二
数据库事务具有ACID四性:A 原子性、C 一致性、I 隔离性、D 持久性
BASE基本含义:基本可用、软状态、最终一致性
云数据库具有以下特性:动态可扩展、高可用性、较低的使用代价、易用性、高性能、免维护、安全
YARN体系机构中包含了三个组件:ResourceManager、 ApplicationMaster、 NodeManager
Spark四个特点:运行速度快、容易使用、通用性、运行模式多样
Spark具有以下优点:Spark的计算模式也属于MapReduce,但不局限于Map和Reduce操作,还提供了多数据集操作类型,编程模型比 MapReduce
Sperk提供了内存计算,中间结果之间放在内存中,带来了更高的迭代执行机制
Sperk基于DAG的任务调度执行机制,要优于MapReduce的迭代执行机制
数据的两种类型:静态数据和流数据
计算模式:批量计算和实时计算
Storm主要术语:Streams、Spouts、Bolts、Topology、Stream Groupings
Spark Streaming和Storm最大的区别在于,Spark 无法实现毫秒级的流计算,而Storm则可以实现毫秒级响应。
Pregel图计算模型:有向图和顶点、顶点之间的消息传递、Pregel的计算过程
推荐方法:专家推荐、基于统计的推荐、基于内容的推荐、协同过滤推荐、混合推荐
名词解释:
分布式文件系统的概念:是一种通过网络实现文件在多台主机上进行分布式存储的文件系统
HDFS:是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。
名称节点:负责管理分布式文件系统的命名空间,保存了两个核心的数据结构,即FsImage和EditLog
数据节点:是分布式文件系统HDFS的工作节点,负责数据的存储和读取,会根据客户端或者名称节点的调度来进行数据的存储和检索,并且向名称节点定期发送自己所存储的块的列表。
第二名称节点:是HDFS架构的一个重要组成部分,具有两个方面的功能:首先,可以完成EditLog与FsImage的合并操作,减小EditLog文件大小,缩短名称节点重启时间;其次,可以作为名称节点的“检查点”。
Zookeeper服务器:Zookeeper服务器并非一台单一的机器,可能是由多台机器构成的集群来提供稳定可靠的协同服务。Zookeeper不仅能够帮助维护当前集群中机器的服务状态,而且能够帮助选出一个“总管”。让这个总管来管理集群。
云数据库的概念:云数据库是部署和虚拟化在云计算环境中的数据库,云数据库是在云计算的大背景下发展起来的一种新兴的共享基础结构的方法,它极大地增强了数据库的存储能力,消除了人员、硬件、软件的重复配置,让软、硬件升级变得更加容易,同时也虚拟化了许多后端功能。
RDD概念:是弹性分布式数据集的英文缩写,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型。
窄依赖:父RDD的一个分区只被一个子RDD的一个分区所使用就是窄依赖
宽依赖:父RDD的一个分区被一个子RDD的多个分区所使用就是宽依赖
什么是数据可视化:数据可视化是指将大型数据集中的数据以图形图像形式表示,并利用数据分析和开发工具发现其中未知信息的处理过程。数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元素表示,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析。
协同过滤推荐:是推荐系统中应用最早和最为成功的技术之一。它一般采用最近邻技术,利用用户的历史信息计算用户之间的距离,然后利用目标用户的最近邻居用户对商品的评价信息来预测目标用户对特定商品的喜好程度,最后根据这一喜好程度对目标用户进行推荐。
简答题:
数据存取策略原理:数据存取策略包括数据存放、数据读取和数据复制等方面,它在很大程度上会影响到整个分布式文件系统的读写性能,是分布式文件系统的核心内容。
Region服务器的工作原理:Region服务器内部管理一系列Region对象和一个Hlog文件,其中,Hlog是磁盘上面的记录文件,它记录着所有的更新操作,每个Region对象又是由多个Store组成的,每个Store对应了表中的一个列族的存储。每个Store又包含了MemStore和若干个StoreFile,其中,MemStore是在内存中的缓存。
Map函数的输入来自于分布式文件系统的文件块,这些文件块的格式是任意的,可以是文档,也可以是二进制格式的。文件块是一系列元素的集合,这些元素也是任意类型的,同一个元素不能跨文件存储。Map函数将输入的元素转换成<key,value>形式的键值对,键和值的类型也是任意的,其中键不同于一般的标志属性,即键没有唯一性,不能作为输出的身份标识,即使是同一输入元素,也可通过一个Map任务生成具有相同键的多个<key,value>
Reduce函数的任务就是将输入的一系列具有相同键的键值对以某种方式组合起来,输出处理后的键值对,输出结果会合并成一个文件。用户可以指定Reduce任务的个数,并通知实现系统,然后主控进程通常会选择一个Hash函数,map任务输出的每个键都会经过Hash函数计算,并根据哈希结果将该键值对输入相应的Reduce任务来处理。对于处理键为k的Reduce任务的输入形式为<k,<v1,v2,…vn>>,输出为<k,v>.
Map端的Shuffle过程:Map端的输出结果首先会被与入到缓存中(比磁盘效率高),
当缓存满时(80%写入后),就会启动流与掷作;溢写操作会清空内容,把内容写入到磁盘空间。每次溢写操作会写一个磁盘文件(key,value),当Map程序运行完成后,会把这个Map程序产生的溢写文件归并成一个大的文件(key,value1,value2,…),然后通知Reduce端来取数据
HDFS HA新特性:在一个典型的HA集群中,一般设置两个名称节点,其中一个名称节点处于“活跃”状态,另一个处于“待命”状态。处于活跃状态的名称节点负责对外处理所有客户端的请求,而处于待命状态的名称节点则作为备用节点,保存了足够多的系统元数据,当名称节点出现故障时提供快速回复能力也就是说,在HDFS HA中,处于待命状态的名称节点提供了“热备份”,一旦活跃名称节点出现故障,就可以立即切换到待命名称节点,不会影响到系统的正常对外服务。
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/我家小花儿/article/detail/792105
推荐阅读
article
stm32
使用
定时器
输出
PWM
_
stm32
定时器
输出
pwm波...
简介: STM32 的
定时器
除了 TIM6 和 7。其他的
定时器
都可以用来产生
PWM
输出
。其中高级
定时器
TIM1...
赞
踩
article
NOAUTH
Authentication
required
.错误
解决办法
...
当我们在使用终端对redis进行指令操作时,或者通过其他工具对redis进行操作时,报以下错误:其字面意思是要进行权限认...
赞
踩
article
用
js
、
react
写了一个带
搜索
框的多
选择器
,附完整
代码
(
最新更新
:找到了一个类似的
组件
)
_
js
怎么...
效果图完整
代码
App.
js
import React, { Component } from "
react
";import...
赞
踩
article
语句
复合
主键三种常用的
MySQL
建表
语句
...
题记:写这篇博客要主是加深自己对
语句
复合
主键的认识和总结实现算法时的一些验经和训教,如果有错误请指出,万分感谢。 MyS...
赞
踩
article
字节跳动后端
C++
面试
_
广告
c++
面试
...
后端商业化
面试
- 字节跳动好喜欢问网络
_
广告
c++
面试
广告
c++
面试
【一面】(10:...
赞
踩
article
远程
连接
MYSQL
错误
1130
代码的解决方法(实测有效)_
error
1130
...
mysql导致错误
1130
代码,是因为没有给
远程
连接
的。问题,所以导致
远程
用户
连接
失败.任务三 实例 (成功)_erro...
赞
踩
article
最大
内积搜索(
MIPS
) 使用
python
举例 三种
AIGC
生成对比_
向量
检索
mips
工具...
然后,我们检查排序后的第一个
向量
的内积是否大于epsilon倍的q的欧几里得范数乘以该
向量
的欧几里得范数。
最大
内积搜索(...
赞
踩
article
(
奶酪
)简单理解
C++
的
深度优先搜索_
杰瑞
爬进了
奶酪
的
小洞
c++
...
题目地址我觉得这个题用来理解深搜还是非常好
的
只给提示1.我们知道
杰瑞
要进洞
的
话一定需要遍历所有可能从下表面进入
的
点2.进...
赞
踩
article
基于
RisingWave
和
ScyllaDB
构建
事件驱动
应用
_
scylladb
应用
场景...
RisingWave
可在事件发生时即时处理事件数据,其内置的
ScyllaDB
连接器可实时将处理后的数据导出到 Sc...
赞
踩
article
2024
-
03
-
29
NO.2
Quest3
开发包
基本原理
和框架_
2024
-
03
-
29
quest...
当 Oculus Integration 获取设备的追踪数据后,就知道虚拟世界中的手或者手柄的位置和旋转角度,此时手...
赞
踩
article
FPGA
实习
报告
_
fpga
实验心得...
在过去的十天里,我参加了
FPGA
的
实习
,学习了一系列关于
FPGA
开发的内容。在这段时间里,我掌握了数码管、呼吸灯、按键消...
赞
踩
article
elasticsearch
7
安装_
elasticsearch
7
.1
7
.
15
...
如果您的环境是Linux,注意要做以下操作,否则es可能会启动失败1 用编辑工具打开文件/etc/sysctl.conf...
赞
踩
article
VR
Interaction
Framework
插件
的使用...
随着
VR
技术越来越成熟,Untiy版本的不断更新,steam
VR
和
VR
TK等旧版本
插件
不再完美适配最新版本的Unity编...
赞
踩
article
数据
库
自动
备份到
gitee
上,实现
数据
自动
化备份_
gitee
项目
的
数据
库
怎么同步...
本人有个不太好的习惯,每次
项目
的
数据
库
都是在线上创建,Navicat 连接线上
数据
库
进行处理,最近有一个
项目
需要二次升级...
赞
踩
article
Java
程序员
的
AI之路-大数据篇:
Hadoop
安装
与后端开发...
对于
Java
程序员
来说,学习和使用
Hadoop
是非常重要
的
,因为它为处理大规模数据集提供了强大
的
工具和技术。本文将详细介...
赞
踩
article
鸿蒙
应用开发-轻松获取
http
网络
请求
_
鸿蒙
如何
请求
接口
...
我们以一个登陆
请求
为例分别展示封装前的代码和封装后的代码使用的API主要是createHttp()和request(),...
赞
踩
article
混合
现实
(
MR
)
开发
框架
_mr
开发
...
Vuforia Engine是PTC公司
开发
的跨平台
MR
框架
,支持HoloLens、Magic Leap、ARKit和A...
赞
踩
article
程序员
·
职场
效能
必修
宝典
㊺:如何与同事快速“破冰”...
该章节与大家分享的是刚入职的时候如何与新同事快速 "破冰" ,在
职场
当中入职到新公司或者跳槽到新的环境,不得不面对的就是...
赞
踩
article
AI
智能
体|
扣子
Coze
文生
图功能
接入
微信
公众号_
扣子
接入
微信
...
本文分享了如何将
Coze
平台的
文生
图功能
接入
微信
公众号的详细操作流程,包括创建图像流、创建并配置Bot、设置提示词和开场...
赞
踩
article
如何在
Python
中
进行
API
调用
_;
python
如何
进行
api
调用
...
简而言之,
API
就像一个通道,允许应用程序 交流 发送请求,接收数据,反之亦然 彼此。_;
python
如何
进行
api
调用
...
赞
踩
相关标签
stm32
redis
nosql
数据库
c++
面试
开发语言
mysql
python
AIGC
图论
算法
深度搜索
DFS
RisingWave
开源软件
rust
流数据库
sql
quest3
VR开发
Oculus
fpga开发
elasticsearch