赞
踩
本书提出了运用区块链技术解决大数据发展中所面临问题的思想。本书分为8章。首先通过对大数据发展所面临困境的分析,引出了迅速崛起的区块链技术,比较了两者的技术沿革及异同;然后通过分析数据流通中存在的问题,揭示了区块链技术带来的改变;最后介绍了区块链技术在相关行业中的应用,并对区块链技术与大数据的结合展开了畅想。总之,本书站在科技发展的前沿,对区块链与大数据的融合发展进行了深入阐述,力求为行业发展提供可行性的指导建议。
作者:井底望天;武源文;赵国栋;刘文献 出版社:人民邮电出版社 出版时间:2017年6月
大数据价值的发挥在于多源数据的融合。目前的数据流通已经严重制约了社会整体大数据价值的发挥,数据的开放、共享、流通和隐私保护问题成为了大数据快速发展道路上最大的瓶颈。所有人都意识到,只有当不同的数据源开放共享,才能最终达成“社会化大数据”这个目标;否则,独立存在、互不共享的数据源只是形成了一个个数据孤岛而已。但是,数据开放共享所面临的阻力可能远远超过人们的想象。究其原因,现在的信息化技术——数据库、云计算、数据中心等都是基于为中心化服务的思想而设立的,这必然导致数据高度集中,形成数据垄断。因此,数据垄断扼杀数据创新的问题也将长期存在,如何在数据所有权和数据共享之间找到合适的平衡点将是大数据生态能否健康发展的核心问题之一。
正如古人所言,“阴在阳之内,不在阳之对”。中心化技术和去中心化技术是应该互补和相辅相成的,区块链技术与大数据技术必将完美融合,从而产生巨大的社会价值。
区块链加密共享、分布式账本的技术特性对解决数据开放共享和流通提供了新的解决思路,不仅能促进数据的流通,破解大数据发展的困局,而且能通过构建价值互联网络逐步推动形成社会化的大数据互联互通。同时,区块链还能促进更平等和自由的数据流动,它所产生的基于共识的数据具有更致密的价值属性。因此,区块链很可能将成为一个提升人类社会信息精度的工具。
区块链技术的革命性被拿来与互联网的上一个革命性技术——TCP/IP相并列。TCP/IP用代码协议彻底打破了信息传递过程中物理空间、中心控制、时间跨度以及成本的限制,而区块链技术解决了TCP/IP所不能解决的信息传递的真实性问题,以及在互联网上进行价值存储和传输的问题。
区块链和大数据技术是伴随人类社会一步步共生进化而来。大数据的内核仍然是统计分析,其背后的动力是人类对未来的精准预测;而区块链的底层逻辑是去中心化、自制、开放和透明,无论人们是否关注过这些深邃的底层逻辑,构筑怎样的世界观体系,现实对技术驱动力量的需求只有一个——效率!科技始终要服务于社会需要这个大原则,区块链和大数据相结合,将真正达到促进社会协同融合的目标。
大数据的概念出现得很早。1980年,托夫勒在其著作《第三次浪潮》中就热情地将大数据称颂为“第三次浪潮的华彩乐章”。但真正对大数据理念的普及起到决定性作用的是麦肯锡公司,该公司在2011年6月发布关于大数据的报告[1],对大数据的影响、关键技术和应用领域等都进行了详尽的分析。麦肯锡的报告得到了金融界的高度重视,而后逐渐受到各行各业的关注。
维克托•迈尔-舍恩伯格和肯尼斯•库克耶在《大数据时代》一书中提出了大数据的4V特点。 (1)Volume(数据量大)。 (2)Velocity(数据输入和处理速度快)。 (3)Variety(数据多样性)。 (4)Value(数据价值密度低)。
实际上,很难界定史前时代和古典小数据时代的分界时间,或许最早的时间点可以被界定在开普勒进行数据分析这一代表性的事件前后。很有才干的天文学家第谷•布拉赫(1546——1601年,丹麦人)用持续20年的时间观察记录了750颗行星的运行数据,位置误差不超过0.67°,却没有对这些数据做深入分析。而能力相对一般的开普勒(1571——1630年,德国人)则花了16年(1596——1612年)对第谷的观测数据进行分析研究,得到了开普勒三定律。这个研究项目持续了将近40年才得到结果。
1951年,世界上第一台商品化批量生产的计算机UNIVAC-I投产,计算机从此从实验室走向社会,由单纯为军事服务走向为社会公众服务。这一年被认为是计算机时代的真正开始。在计算机时代,整个数据价值被发掘、利用的体系都越来越依赖于计算机,但是由于方法论上仍然遵循着古典小数据时代的基本逻辑,因此仍然属于小数据时代。
在小数据时代,由于绝大部分数据需要专门采集,并且整个流程都需要专业统计人员的参与,导致数据获取成本很高。因此,必须采用抽样的方式来控制样本量,以使用尽量少的样本得到对研究总体尽量好的代表性;高昂的数据采集成本会促使原始数据信息被严加保护,数据分享变得异常困难。得出分析结论越来越难;数据采集的障碍也使研究结论应用到个案上的成本很高。
近几十年来飞速发展的IT技术,特别是互联网技术,对催生大数据理念起到了至关重要的作用。长期以来,数据的采集成本始终居高不下。如今,这个障碍已随着多个自动数据来源的出现而渐渐消失。数据的第一个来源是“电脑”。这种“电脑”带来的广泛数据化,使原本被舍弃的次要信息也能保存下来。数据的第二个来源是各种传感器。数据的第三个来源是将过去已经存在的以非数字化形式存储的信息数字化。数据的第四个来源就是蓬勃发展的个性化互联网数据。还有很多传感器通过互联网实时采集来自个体的信息。例如,手机已经成为了个人信息中心,通过手机采集个体信息非常精确。
仅从网络传输速度来看,从20世纪90年代的拨号上网到现在的光纤入户,以及从有线网络到无线网络乃至于3G、4G的进一步扩展,这些技术进步无一不在拆除着数据传输分享的技术壁垒。
在小数据时代,样本只能对总体的一致特征具有代表性,而无法覆盖到各种亚群体的罕发事件(小概率事件)。随着大数据的出现,丰沛的数据量使研究者几乎可以将数据集任意细分到任何所关心的维度和深度,而仍然有充分的样本信息可被利用。这使得分析结果显然比小数据时代有了更好的代表性。
只要数据量足够完备,理论上对无限细分之后的层级也能够给出足够高精度的分析结果,这就使分析结论的代表性大大增强了。
除了对总体做尽量精确完整的描述之外,大数据还可以全方位地补齐被刻意隐藏起来的、难以直接获取的关键信息,而这类关键信息往往都存在巨大的商业价值或者其他价值(或许因此才会被刻意隐藏)。
描述和补齐缺失值只是对现状进行呈现,而大数据的最终价值在于对未来进行预测。可以说,这方面的应用场景是充满想象力的。
大数据时代,数据不再仅仅作为生产过程的记载、劳动成果的度量,其本身也成为了一种生产要素,是一种经济资产。 数据代表了对现实的量化与抽象,所以大量的数据自然就给我们带来更多、更全面的观察世界的方式,而新的观察方式可以揭示以前没有发现的特性。
“饿了么”从外卖订购平台起步,积累了大量的用户饮食信息之后,发现原来可以把菜品供应和原材料供应联系起来,于是就有了给餐厅提供食材的“有菜”平台,进而打通批发、物流、服务等一整套链条。这种做法其实就是依靠对已有客户的深度了解,利用大数据带来的高效率逐步侵占与现有服务相关的上下游产业的模式。
对于个人而言,大数据也将彻底改变其工作和生活方式。所谓工业4.0,其本质就是自动化和信息化不断融合的过程,就是大数据持续发挥价值的过程,也是用软件重新定义世界的过程。一切都在基于数据被精确地控制当中,人类的大部分体力劳动和脑力劳动都将被机器和人工智能所取代,汽车司机、售货员、检票员等工作将彻底消失,智能生产、智能服务、智能维护将贯穿于整个人类社会,不仅个体的生活将被重塑,传统的产业链也将被彻底打碎重组。
如果说之前提到的大数据应用都是基于把相对通用的数据处理方式用在不同的个体身上,那么人工智能则是基于数据的个性而把对数据的处理进一步个性化,这么做最直接的结果就是更加精准的匹配与更高的满意度。随着时间的推移,掌握一切历史和当前数据的人工智能与其服务的用户之间甚至可能会产生一种类似教练与运动员之间的默契,真正进入数据驱动一切的状态。
近些年,大数据实践中最突出的问题就是基础数据的缺失。其原因一方面是没有统一的数据标准,因此很多数据无法被直接利用,需要转化或者清洗;另一方面是数据开放、共享机制不明确,无法有效地让已有的信息流通起来,供多方使用。
大数据更多是辅助工具,而不是决定性工具。传统的数据分析方法虽然相对低效,但由于强调对因果关系的反复确认,使分析结论的准确性更高。大数据由于更强调相关性而不是因果推断,使结果为假象的可能性明显上升。
推而广之,大数据分析的内核仍然是统计分析,而统计分析的基本假设是历史数据中所蕴含的规律在未来仍然有效,因此可以基于历史数据的分析结果来预测未来。但在用户行为变化速度很快的网络世界,这条准则很可能并不成立,因此所有依赖于网站用户数据的大数据分析都存在失效风险。
制约数据资源开放共享的因素有很多。对于政府部门而言,其本身就缺乏数据开放的动力。这并不能简单地归结为政府行政垄断、故意不作为或者理念落后等原因,政府在数据开放方面的保守态度是有其合理性的,因为政府所掌握的数据信息往往有一定的敏感性。除了政府部门之外,大数据时代的另一个主要数据持有者就是各大企业。但是,正因为数据中蕴含着宝贵的商业利益,甚至可能决定自身的生死存亡,因此各大企业也不会随便开放自身拥有的有价值的数据。
破除数据资源开放共享的障碍,首先需要在数据保护和隐私保护方面构建完
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。