赞
踩
大数据时代悄然来临,带来了信息技术发展的巨大变革,并深刻影响着社会生产和人民生活的方方面面。全球范围内,世界各国政府均高度重视大数据技术的研究和产业发展,纷纷把大数据上升为国家战略加以重点推进。企业和学术机构纷纷加大技术、资金和人员投入力度,加强对大数据关键技术的研发与应用,以期在“第三次信息化浪潮”中占得先机、引领市场。大数据已经不是“镜中花、水中月”,它的影响力和作用力正迅速触及社会的每个角落,所到之处,或是颠覆,或是提升,都让人们深切感受到了大数据实实在在的威力。
对一个国家而言,能否紧紧抓住大数据发展机遇,快速形成核心技术和应用参与新一轮的全球化竞争,将直接决定未来若干年世界范围内各国科技力量博弈的格局。大数据专业人才的培养是新一轮科技较量的基础,高等院校承担着大数据人才培养的重任,因此,各高等院校非常重视大数据课程的开设,大数据课程已经成为计算机科学与技术专业的重要核心课程。
大数据时代最重要的产物就是数据,下面我们来认识一下数据
计算机系统中的数据组织形式主要有两种,即文件和数据库。
层次数据库:层次模型是数据库系统中最早出现的数据模型,层次数据库系统采用层次模型作为数据的组织方式。它采用树形结构来表示各类实体以及实体间的联系。
网状数据库:满足一下两个条件的基本层次联系的集合为网状模型
1、允许一个以上的结点无双亲;
2、一个结点可以有多于一个的双亲。
备注:层次模型实际上是网状模型的一个特例。
关系型数据库-主流数据库:关系模型要求关系必须规范化的,关系必须满足一定的规范条件,这些规范条件中最基本的一条就是,关系的每一个分量必须是一个不可分的数据项,也就是说,不允许表中还有表
NoSQL数据库:非机构化数据存储
随着web2.0的兴起,非结构化数据迅速增加,目前人类社会,产生的数字内容有90%是非结构化数据,因此,能欧更好的支持非结构化数据管理的NoSQL数据库应用而生。
数据生命周期:数据从创建–>修改–>发布利用–>归档销毁,不同时期内,各阶段的利用价值不同,所以需要在不同的阶段采用不同 的数据处理方式
在过去,一旦数据的基本用途实现了,往往就会被删除,一方面是由于过去的存储技术落后,人们需要删除旧数据来存储新数据,另一方面则是人们没有认识到数据的潜在价值。
数据的价值不会因为不断被使用而削减,反而会因为不断重组而产生更大的价值
各类收集来的数据都应当被尽可能长时间地保存下来,同时也应当在一定条件下与全社会分享,并产生价值
人类进入信息社会以后,数据以自然方式增长,其产生不以人的意志为转移
从1986年开始到2010年的20年时间里,全球数据的数量增长了100倍,今后的数据量增长速度将更快,我们正生活在一个“数据爆炸”的时代
根据IBM前首席执行官郭士纳的观点,IT领域每隔十五年就会迎来一次重大变革
阶段 | 时间 | 内容 |
---|---|---|
第一阶段:萌芽期 | 上世纪90年代 | 随着数据挖掘理论和数据库技术逐步成熟,一批商业智能工具和知识管理技术开始被应用,如书仓库,专家系统、知识管理系统 |
第二阶段:成熟期 | 本世纪前十年 | Web2.0应用迅速发展,非结构化数据大量产生,传统的处理方法难以应对,带动了大数据技术的快速突破,形成了并行计算与分布式系统两大核心技术谷歌的GFS和MapReduce等大数据技术受到追捧,Hadoop平台开始大行其道 |
第三阶段:大规模应用期 | 2010年前后 | 大数据应用渗透到各个行业,数据驱动决策,信息社会只能化程度大幅度提高 |
第一次浪潮:
个人计算机
第二次浪潮:
互联网
第三次浪潮:
物联网、云计算和大数据
可以发现:大数据发展的三个阶段和信息化浪潮的三个阶段是并行出现的
存储设备容量不断增加
CPU处理能力大幅提升
网络带宽不断增加
4V理论
数据量大
数据类型繁多
10%的结构化数据,存储在数据库中
90%的非结构化数据,它们与人类信息密切相关
科学研究【基因;地球与空间检测】
企业应用【Email、文档、文件;应用日志;交易记录】
Web 1.0数据【文本、图像、视频】
Web 2.0数据【查询日志/点击流;Twitter/ Blog / SNS; Wiki
】
Web 3.0数据【区块链、元宇宙】
数据处理速度快
价值密度低,商业价值高
以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒,但是具有很高的商业价值
大数据最根本的价值就是为人类提供了认识复杂系统的新思维和新手段
图灵奖获得者、著名数据库专家Jim Gray 博士观察并总结人类自古以来,在科学研究上,先后历经了实验、理论、计算和数据四种范式
科学研究第一种范式:实验
伽利略在比萨斜塔做两个铁球同时落地实验
1590年重量不同的两个铁球同时落地,推翻了亚里士多德物体下落速度与物体重量成正比的结论,实验纠正了持续了接近2000年的错误结论
科学研究第一种范式:理论
实验科学的研究会受到当时条件的限制,比较难以完成对自然现象更精准的理解,随着科学的进度,我们开始采用数学,几何,物理等来构建问题的模型和解决的方案;很多理论的证明和运用对人类的生活和思想产生了很大的影响,并且在很大程度上推动了人类进步和发展
1946年人类历史上第一台计算机ENIAC的诞生,人类社会步入了计算机的时代,人类的科学研究进入了以计算为中心的全新的时期,在实际应用中,计算科学主要用于对各个科学问题进行计算机的模拟和其他形式的计算,通过设计算法,并通过编写相应的程序,然后输入计算机去运行,我们就可以借助于计算机的高速的运算能力去帮我们解决各种各样的问题,而且计算机存储容量大,计算速度快,精度高,可重复执行这些特点,所以是科学研究的利器,极大推动了人类社会的发展。
大数据时代,以数据为中心
随着数据日已累计,其宝贵的价值日益得到体现,物联网和云计算的出现更是促成了事物从量变到质变的转变。从此人类社会开启了全新的大数据时代。这时计算机不仅仅是做一次模拟仿真,而且还能进行分析总结,并且帮助我们得到结论。在大数据环境下,一切都是以数据为中心,从数据中发现问题,解决问题,从而真正体现数据的价值,而且大数据也称为我们科学工作的保障,从数据中挖掘未知的模式和有价值的信息,从而更好的服务于生产和生活,来推动科技的进步和社会的创新
虽然第三和第四范式都是利用计算机来进行计算,但是他们是有本质区别的
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。