赞
踩
本篇文章是对《大数据技术体系详解:原理、架构与实践》(作者:董西成 )一书的第一章节的整理。
从数据源开始,经过分析、挖掘到最终获得价值一般需要经过6个主要环节。分别是数据收集、数据存储、资源管理与服务协调、计算引擎、数据分析、数据可视化。
数据收集层的特点由是数据源决定。
数据源有如下几个特点:分布式(数据源分布在不同机器上,通过网络连接在一起)、异构性(生产数据的系统多种多样)、多样化(数据结构会有多种多样)、流式产生(数据源会源源不断的常胜数据)。
由于数据的以上特点,让数据收集层会有如下几个特点:扩展性(能够灵活适配不同的数据源,可接入大量数据源而不产生系统瓶颈)、可靠性(数据在传输的过程中不能丢失)、安全性(对一些敏感数据,有保证数据安全的机制)、低延迟
资源利用率高、运维成本低、数据共享
整个技术栈涉及的层级为数据收集、数据存储、资源管理与服务协调、计算引擎、数据分析。
LA架构主要是结合批处理和流式计算技术在延迟、吞吐量和容错之间找到一个平衡点。
以推荐系统数据流水线架构为例
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。