赞
踩
导读:2001-2020,21世纪的前20年已接近尾声,大数据从无到有,从火爆到被质疑。本文带你了解这20年里,大数据解决了哪些问题、面临着哪些挑战?
作者:阿尔伯特·比费特(Albert Bifet)、理查德·戈华达(Richard Gavaldà)、杰弗里·福尔摩斯(Geoffrey Holmes)、伯恩哈德·普法林格(Bernhard Pfahringer)
译者:陈瑶、姚毓夏
来源:大数据DT(ID:hzdashuju)
当今世界,每一天人们通过各种各样的电子终端制造海量的数据,这些数据有不同的形式,并且来自于一些独立的或关联的应用。
我们现有的数据处理、分析、存储和理解能力,在这股大数据的洪流面前显得力不从心。社交网络应用诞生普及以来,用户可以随心所欲地发布内容,这更加速了数据的快速增长,让本已拥有海量数据的互联网变得更为庞大。
不仅如此,手机里的感应器正从我们身上实时读取各个方面的数据。一部手机可以处理的数据量远远不止通话记录这么简单,毕竟通话记录的发明只是为了方便结账。
可以预见的是物联网(IoT)会把数据规模提升到一个前所未有的高度。到时候,任何人和任何机器(不论是家用咖啡机还是轿车和公共汽车,不论是在火车站还是在机场)都有着松散的联系。
数以万亿计的相连物体无疑会产生巨大的信息海洋,而我们必须大海捞针,去发现有价值的信息,从而提升生活质量,让世界变得更好。例如,每天早上起床后,为了最优化通勤时间,信息处理系统需要综合处理交通、天气、建筑、警察管制和你的日程安排信息,并在有限的时间里进行深度优化。
为了处理多到让人难以置信的数据,我们需要快捷高效、合理利用资源的实时处理方法。
01 大数据
用一个具体的数据大小来定义“大数据”是没有意义的,哪怕用拍字节(PB,相当于一千兆字节)也不够。比较有意义的定义是大数据通常太大而难以用常规算法和技术来管理,尤其是当我们要从中提取知识的时候。
二十年前人们还在为吉字节(GB)量的数据挣扎,而写本文的时候纠结的单位已经变成了下表中的太字节(TB)和拍字节(PB)。毫无疑问二十几年后,我们纠结的数据单位会变成表格更下面的几行。
(单位:字节)
2001年,在Gartner工作的分析师Doug Laney用3个V特性定义了大数据管理:
数据容量(volume):数据量前所未有且持续增长,但是我们能处理的数据量相对而言并没有增加。
数据种类(variety):数据种类繁多,有文字、传感器数据、音频、视频、图片等,我们要从所有这些数据中提取信息。
数据运动(velocity):</
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。