赞
踩
大家好,今天很高兴在这里与大家分享、探讨和学习分布式流处理技术。
一、分布式流处理技术概述
随着计算机和网络技术的迅猛发展以及数据获取手段的不断丰富,在越来越多的领域出现了对海量、高速数据进行实时处理的需求,这类需求的数据普遍具有以下特征:
数据价值高
数据已经渗透到每一个行业和业务职能领域,对数据的占有、控制、挖掘和运用已成为国家间和企业间新的争夺焦点。
数据时效性强
营销时机转瞬即逝、风险防控分秒必争、重大决策快速精准,数据处理必须在秒级或更短的时间内得到结果。
数据量大
数据规模大,往往达到PB级别。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。
数据量增长迅速
数据产生速度快,可以达到GB/S级别,数据量暴增场景频现。
由于此类需求往往超出传统数据处理技术的能力,使得现有的技术不能很好地满足对海量、高速数据进行实时处理和分析的需求,分布式流处理技术应运而生。
分布式流处理技术发展并非一蹴而就,其演变历程大致可分为三个阶段:初始期、发展期以及成熟期。实时数据库、主动数据库以及信息过滤系统为流处理技术初始期形态;集中式数据量管理系统为流处理技术发展形态;最后演变成成熟期的分布式流处理技术平台。
既然流处理技术这么强大,能解决这么多问题,到底什么是分布式流处理技术?
指针对流式数据的一种分布式、高吞吐、高可用、低延迟、具有自身容错性的实时计算技术,它根据一组处理规则来进行持续计算的技术。打个比方:相信大家对每年夏天的洪水灾害印象深刻,比如“故宫看海”,雨(数据)又大又急,雨水不能及时排出,将故宫变海,后借助科学排水系统(分布式流处理平台)解决。
二、分布式流处理主流技术
2004年以来,随着Hadoop平台的诞生&#
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。