赞
踩
大数据是无法使用传统计算技术处理的大型数据集的集合。它不是单一的技术或工具,而是已成为一个完整的主题,涉及各种工具,技术和框架。
全球数据的90%是在最近十年中产生的。
IBM提出了大数据的5V个特点:
Volume
:数据量大,采集规模、存储规模和计算规模都非常大,一般以TB或者PB作为计量单位。
Variety
:数据类型繁多,具体体现在结构化,半结构化与非结构化等种类,如日志,音频,视频,图片,地理信息等。
Velocity
:处理速度快,数据产生和处理的速度快,时效性高;
Value
:价值密度低,在海量信息中,真正有价值的信息很少。如何通过数据挖掘手段,在垃圾中发现黄金,是大数据需要处理的问题;
Veracity
:真实性,全量数据反映了事物的客观性与真实性。
大数据涉及不同设备和应用程序产生的数据。以下是大数据领域的一些领域。
因此,大数据包括海量,高速和可扩展的各种数据。其中的数据将分为三种类型。
源起:Google2004年发表了3篇论文(三驾马车),分别是分布式文件系统GFS, 大数据分布式计算框架MapReduce和NoSQL数据库系统BigTable。
搜索引擎最要做两件事情,一个是网页抓取,一个是索引构建。这个过程中,需要存储和计算大量的数据
<Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。