赞
踩
摘要:云计算和大数据以及人工智能,是目前最为热门的新兴技术。它们共同推动了全球数字化转型,成为了当前最具发展潜力的技术,也是所有首席技术官最想要拥有的技术。而其中,云计算和大数据因为都与资源有关,所以不了解的人常常会将两者混淆。实际上,云计算和大数据是完全不同的两种技术,且各自的重点也不一样,云计算比较注重资源分配,而大数据则是更注重高效处理。简单来说,云计算是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。而大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。两者虽然侧重不同,但却实相辅相成的。这一点也可以很简单的理解。首先,云计算将计算资源作为服务支撑大数据的挖掘,而大数据的发展趋势是对实时交互的海量数据查询、分析提供了各自需要的价值信息。其次,大数据挖掘处理需要云计算作为平台,而大数据涵盖的价值和规律则能够使云计算更好的与行业应用结合并发挥更大的作用;大数据的信息隐私保护是云计算大数据快速发展和运用的重要前提,而云计算与大数据相结合将可能成为人类认识事物的新的工具。由于大数据对系统提出了很多极限的要求,不论是存储、传输还是计算,现有计算技术难以满足大数据的需求,因此整个IT架构的革命性重构势在必行,存储能力的增长远远赶不上数据的增长,设计最合理的分层存储架构已成为信息系统的关键。分布式存储架构不仅需scale up式的可扩展性,也需要scale out式的可扩展性,因此大数据处理离不开云计算技术,云计算可为大数据提供弹性可扩展的基础设施支撑环境以及数据服务的高效模式,大数据则为云计算提供了新的商业价值,大数据技术与云计算技术必将有更完美的结合。总之一句话云计算因大数据问题产生,大数据离不开云计算。
关键词:云计算;大数据;高可用;高效;大量。
Abstract: Cloud computing, big data and artificial intelligence are the hottest emerging technologies at present. Together, they are driving the global digital transformation, the most promising technology today, and the technology that all CTOs want to own. Among them, cloud computing and big data are often confused by people who don’t know much about them because they are both related to resources. In fact, cloud computing and big data are two completely different technologies with different priorities. Cloud computing focuses more on resource allocation, while big data focuses more on efficient processing. Simply put, cloud computing is the growth, use, and delivery of internet-based related services, usually involving the provision of dynamic, easily scalable, and often virtualized resources over the Internet. Big data refers to the data set that cannot be captured, managed and processed by conventional software tools within a certain period of time. It is a mass, high growth rate and diversified information asset that requires new processing mode to have stronger decision-making power, insight discovery power and process optimization ability. Although the two focus on different, but actually complement each other. This, too, can be easily understood. First of all, cloud computing takes computing resources as services to support the mining of big data, while the development trend of big data is that it provides the value information needed by each of them for the query and analysis of massive data in real-time interaction. Secondly, big data mining processing needs cloud computing as a platform, and the value and rules covered by big data can make cloud computing better combine with industrial applications and play a greater role. Information privacy protection of big data is an important prerequisite for the rapid development and application of cloud computing big data, and the combination of cloud computing and big data may become a new tool for human understanding things. Due to the large data on the system proposed many limit request, whether storage, transfer, or calculation, the existing computing technology is difficult to meet the needs of large data, therefore the entire IT infrastructure revolutionary reconstruction is imperative, storage capacity of growth is far behind the pace of the growth of the data, design the most reasonable hierarchical storage architecture has become the key of information system. Distributed storage architecture not only need to scale up of extensibility, also need to scale the extensibility of the out type, so the big data processing is dependent on the cloud computing technology, cloud computing can provide flexible extensible for big data infrastructure supporting environment and data service mode of efficient, large data for cloud computing provides a new commercial value, Big data technology and cloud computing technology will have a more perfect combination. In a word, cloud computing is caused by the problem of big data, and big data cannot be separated from cloud computing.
Key words:Cloud computing; Big data; High availability; High efficiency; A lot of.
引言
关于“云计算”已经深深植入到我们生活中的点点滴滴,平时常用的那些APP或网站,基本都已经离不开“云计算”作为背后的强大服务支持,如剁手党爱恨交加的淘宝、京东,社交痴迷党的微信、微博等等。
越来越多的企业开始使用基于云的企业服务,生活因“云计算”正在发生着革命性的变革和改变!
正文
云计算(cloud computing)是分布式计算的一种,指的是通过网络“云”将巨大的数据计算处理程序分解成无数个小程序,然后,通过多部服务器组成的系统进行处理和分析这些小程序得到结果并返回给用户。云计算早期,简单地说,就是简单的分布式计算,解决任务分发,并进行计算结果的合并。因而,云计算又称为网格计算。通过这项技术,可以在很短的时间内(几秒钟)完成对数以万计的数据的处理,从而达到强大的网络服务。
现阶段所说的云服务已经不单单是一种分布式计算,而是分布式计算、效用计算、负载均衡、并行计算、网络存储、热备份冗杂和虚拟化等计算机技术混合演进并跃升的结果。
1.1 概述
“云”实质上就是一个网络,狭义上讲,云计算就是一种提供资源的网络,使用者可以随时获取“云”上的资源,按需求量使用,并且可以看成是无限扩展的,只要按使用量付费就可以,“云”就像自来水厂一样,我们可以随时接水,并且不限量,按照自己家的用水量,付费给自来水厂就可以。
从广义上说,云计算是与信息技术、软件、互联网相关的一种服务,这种计算资源共享池叫做“云”,云计算把许多计算资源集合起来,通过软件实现自动化管理,只需要很少的人参与,就能让资源被快速提供。也就是说,计算能力作为一种商品,可以在互联网上流通,就像水、电、煤气一样,可以方便地取用,且价格较为低廉。
总之,云计算不是一种全新的网络技术,而是一种全新的网络应用概念,云计算的核心概念就是以互联网为中心,在网站上提供快速且安全的云计算服务与数据存储,让每一个使用互联网的人都可以使用网络上的庞大计算资源与数据中心。
云计算是继互联网、计算机后在信息时代又一种新的革新,云计算是信息时代的一个大飞跃,未来的时代可能是云计算的时代,虽然目前有关云计算的定义有很多,但总体上来说,云计算虽然有许多得含义,但概括来说,云计算的基本含义是一致的,即云计算具有很强的扩展性和需要性,可以为用户提供一种全新的体验,云计算的核心是可以将很多的计算机资源协调在一起,因此,使用户通过网络就可以获取到无限的资源,同时获取的资源不受时间和空间的限制。
1.2 产生背景
互联网自1960年开始兴起,主要用于军方、大型企业等之间的纯文字电子邮件或新闻集群组服务。直到1990年才开始进入普通家庭,随着web网站与电子商务的发展,网络已经成为了目前人们离不开的生活必需品之一。云计算这个概念首次在2006年8月的搜索引擎会议上提出,成为了互联网的第三次革命。
近几年来,云计算也正在成为信息技术产业发展的战略重点,全球的信息技术企业都在纷纷向云计算转型。我们举例来说,每家公司都需要做数据信息化,存储相关的运营数据,进行产品管理,人员管理,财务管理等,而进行这些数据管理的基本设备就是计算机了。
对于一家企业来说,一台计算机的运算能力是远远无法满足数据运算需求的,那么公司就要购置一台运算能力更强的计算机,也就是服务器。而对于规模比较大的企业来说,一台服务器的运算能力显然还是不够的,那就需要企业购置多台服务器,甚至演变成为一个具有多台服务器的数据中心,而且服务器的数量会直接影响这个数据中心的业务处理能力。除了高额的初期建设成本之外,计算机的运营支出中花费在电费上的金钱要比投资成本高得多,再加上计算机和网络的维护支出,这些总的费用是中小型企业难以承担的,于是云计算的概念便应运而生了。
1.3 发展历程
云计算这个概念从提出到今天,已经差不多10年了。在这10年间,云计算取得了飞速的发展与翻天覆地的变化。现如今,云计算被视为计算机网络领域的一次革命,因为它的出现,社会的工作方式和商业模式也在发生巨大的改变。
追溯云计算的根源,它的产生和发展与之前所提及的并行计算、分布式计算等计算机技术密切相关,都促进着云计算的成长。但追溯云计算的历史,可以追溯到1956年,ChristopherStrachey发表了一篇有关虚拟化的论文,正式提出了虚拟化的概念。虚拟化是今天云计算基础架构的核心,是云计算发展的基础。而后随着网络技术的发展,逐渐孕育了云计算的萌芽。
在上世纪的90年代,计算机网络出现了大爆炸,出现了以思科为代表以一系列公司,随即网络出现泡沫时代。
在2004年,Web2.0会议举行,Web2.0成为当时的热点,这也标志着互联网泡沫破灭,计算机网络发展进入了一个新的阶段。在这一阶段,让更多的用户方便快捷地使用网络服务成为会联网发展亟待解决的问题,与此同时,一些大型公司也开始致力于开发大型计算能力的技术,为用户提供了更加强大的计算处理服务。
在2006年8月9日,Google首席执行官埃里克·施密特(Eric Schmidt)在搜索引擎大会(SESSanJose2006)首次提出“云计算”(Cloud Computing)的概念。这是云计算发展史上第一次正式地提出这一概念,有着巨大的历史意义。
2007年以来,“云计算”成为了计算机领域最令人关注的话题之一,同样也是大型企业、互联网建设着力研究的重要方向。因为云计算的提出,互联网技术和IT服务出现了新的模式,引发了一场变革。
在2008年,微软发布其公共云计算平台(Windows Azure Platform),由此拉开了微软的云计算大幕。同样,云计算在国内也掀起一场风波,许多大型网络公司纷纷加入云计算的阵列。
2009年1月,阿里软件在江苏南京建立首个“电子商务云计算中心”。同年11月,中国移动云计算平台“大云”计划启动。到现阶段,云计算已经发展到较为成熟的阶段。
2019年8月17日,北京互联网法院发布《互联网技术司法应用白皮书》。发布会上,北京互联网法院互联网技术司法应用中心揭牌成立。
1.4 特点
云计算的可贵之处在于高灵活性、可扩展性和高性比等,与传统的网络应用模式相比,其具有如下优势与特点:
1.4.1 虚拟化技术
必须强调的是,虚拟化突破了时间、空间的界限,是云计算最为显著的特点,虚拟化技术包括应用虚拟和资源虚拟两种。众所周知,物理平台与应用部署的环境在空间上是没有任何联系的,正是通过虚拟平台对相应终端操作完成数据备份、迁移和扩展等。
1.4.2 动态可扩展
云计算具有高效的运算能力,在原有服务器基础上增加云计算功能能够使计算速度迅速提高,最终实现动态扩展虚拟化的层次达到对应用进行扩展的目的。
1.4.3 按需部署
计算机包含了许多应用、程序软件等,不同的应用对应的数据资源库不同,所以用户运行不同的应用需要较强的计算能力对资源进行部署,而云计算平台能够根据用户的需求快速配备计算能力及资源。
1.4.4 灵活性高
目前市场上大多数IT资源、软、硬件都支持虚拟化,比如存储网络、操作系统和开发软、硬件等。虚拟化要素统一放在云系统资源虚拟池当中进行管理,可见云计算的兼容性非常强,不仅可以兼容低配置机器、不同厂商的硬件产品,还能够外设获得更高性能计算。
1.4.5 可靠性高
倘若服务器故障也不影响计算与应用的正常运行。因为单点服务器出现故障可以通过虚拟化技术将分布在不同物理服务器上面的应用进行恢复或利用动态扩展功能部署新的服务器进行计算。
1.4.6 性价比高
将资源放在虚拟资源池中统一管理在一定程度上优化了物理资源,用户不再需要昂贵、存储空间大的主机,可以选择相对廉价的PC组成云,一方面减少费用,另一方面计算性能不逊于大型主机。
1.4.7 可扩展性
用户可以利用应用软件的快速部署条件来更为简单快捷的将自身所需的已有业务以及新业务进行扩展。如,计算机云计算系统中出现设备的故障,对于用户来说,无论是在计算机层面上,亦或是在具体运用上均不会受到阻碍,可以利用计算机云计算具有的动态扩展功能来对其他服务器开展有效扩展。这样一来就能够确保任务得以有序完成。在对虚拟化资源进行动态扩展的情况下,同时能够高效扩展应用,提高计算机云计算的操作水平。
1.5 服务类型
通常,它的服务类型分为三类,即基础设施即服务(IaaS)、平台即服务(PaaS)和软件即服务(SaaS)。这3种云计算服务有时称为云计算堆栈,因为它们构建堆栈,它们位于彼此之上,以下是这三种服务的概述:
1.5.1 基础设施即服务(IaaS)
基础设施即服务是主要的服务类别之一,它向云计算提供商的个人或组织提供虚拟化计算资源,如虚拟机、存储、网络和操作系统。
1.5.2 平台即服务(PaaS)
平台即服务是一种服务类别,为开发人员提供通过全球互联网构建应用程序和服务的平台。Paas为开发、测试和管理软件应用程序提供按需开发环境。
1.5.3 软件即服务(SaaS)
软件即服务也是其服务的一类,通过互联网提供按需软件付费应用程序,云计算提供商托管和管理软件应用程序,并允许其用户连接到应用程序并通过全球互联网访问应用程序。
1.6 实现关键技术
1.6.1 体系结构
实现计算机云计算需要创造一定的环境与条件,尤其是体系结构必须具备以下关键特征。第一,要求系统必须智能化,具有自治能力,减少人工作业的前提下实现自动化处理平台智地响应要求,因此云系统应内嵌有自动化技术;第二,面对变化信号或需求信号云系统要有敏捷的反应能力,所以对云计算的架构有一定的敏捷要求。与此同时,随着服务级别和增长速度的快速变化,云计算同样面临巨大挑战,而内嵌集群化技术与虚拟化技术能够应付此类变化。
云计算平台的体系结构由用户界面、服务目录、管理系统、部署工具、监控和服务器集群组成:
(1)用户界面。主要用于云用户传递信息,是双方互动的界面。
(2)服务目录。顾名思义是提供用户选择的列表。
(3)管理系统。指的是主要对应用价值较高的资源进行管理。
(4)部署工具。能够根据用户请求对资源进行有效地部署与匹配。
(5)监控。主要对云系统上的资源进行管理与控制并制定措施。
(6)服务器集群。服务器集群包括虚拟服务器与物理服务器,隶属管理系统。
1.6.2 资源监控
云系统上的资源数据十分庞大,同时资源信息更新速度快,想要精准、可靠的动态信息需要有效途径确保信息的快捷性。而云系统能够为动态信息进行有效部署,同时兼备资源监控功能,有利于对资源的负载、使用情况进行管理。其次,资源监控作为资源管理的“血液”,对整体系统性能起关键作用,一旦系统资源监管不到位,信息缺乏可靠性那么其他子系统引用了错误的信息,必然对系统资源的分配造成不利影响。因此贯彻落实资源监控工作刻不容缓。资源监控过程中,只要在各个云服务器上部署Agent代理程序便可进行配置与监管活动,比如通过一个监视服务器连接各个云资源服务器,然后以周期为单位将资源的使用情况发送至数据库,由监视服务器综合数据库有效信息对所有资源进行分析,评估资源的可用性,最大限度提高资源信息的有效性。
1.6.3 自动化部署
科学进步的发展倾向于半自动化操作,实现了出厂即用或简易安装使用。基本上计算资源的可用状态也发生转变,逐渐向自动化部署。对云资源进行自动化部署指的是基于脚本调节的基础上实现不同厂商对于设备工具的自动配置,用以减少人机交互比例、提高应变效率,避免超负荷人工操作等现象的发生,最终推进智能部署进程。自动化部署主要指的是通过自动安装与部署来实现计算资源由原始状态变成可用状态。其于与计算中表现为能够划分、部署与安装虚拟资源池中的资源为能够给用户提供各类应用于服务的过程,包括了存储、网络、软件以及硬件等。系统资源的部署步骤较多,自动化部署主要是利用脚本调用来自动配置、部署与配置各个厂商设备管理工具,保证在实际调用环节能够采取静默的方式来实现,避免了繁杂的人际交互,让部署过程不再依赖人工操作。除此之外,数据模型与工作流引擎是自动化部署管理工具的重要部分,不容小觑。一般情况下,对于数据模型的管理就是将具体的软硬件定义在数据模型当中即可;而工作流引擎指的是触发、调用工作流,以提高智能化部署为目的,善于将不同的脚本流程在较为集中与重复使用率高的工作流数据库当中应用,有利于减轻服务器工作量。
1.7 实现形式
云计算是建立在先进互联网技术基础之上的,其实现形式众多,主要通过以下形式完成:
(1)软件即服务。通常用户发出服务需求,云系统通过浏览器向用户提供资源和程序等。值得一提的是,利用浏览器应用传递服务信息不花费任何费用,供应商亦是如此,只要做好应用程序的维护工作即可。
(2)网络服务。开发者能够在API的基础上不断改进、开发出新的应用产品,大大提高单机程序中的操作性能。
(3)平台服务。一般服务于开发环境,协助中间商对程序进行升级与研发,同时完善用户下载功能,用户可通过互联网下载,具有快捷、高效的特点。
(4)互联网整合。利用互联网发出指令时,也许同类服务众多,云系统会根据终端用户需求匹配相适应的服务。
(5)商业服务平台。构建商业服务平台的目的是为了给用户和提供商提供一个沟通平台,从而需要管理服务和软件即服务搭配应用。
(6)管理服务提供商。此种应用模式并不陌生,常服务于IT行业,常见服务内容有:扫描邮件病毒、监控应用程序环境等。
1.8 安全威胁
1、云计算安全中隐私被窃取
现今,随着时代的发展,人们运用网络进行交易或购物,网上交易在云计算的虚拟环境下进行,交易双方会在网络平台上进行信息之间的沟通与交流。而网络交易存在着很大的安全隐患,不法分子可以通过云计算对网络用户的信息进行窃取,同时还可以在用户与商家进行网络交易时,来窃取用户和商家的信息,当有企图的分子在云计算的平台中窃取信息后,就会采用一些技术手段对信息进行破解,同时对信息进行分析,以此发现用户更多的隐私信息,甚至有企图的不法分子还会通过云计算来盗取用户和商家的信息。
2、云计算中资源被冒用
云计算的环境有着虚拟的特性,而用户通过云计算在网络交易时,需要在保障双方网络信息都安全时才会进行网络的操作,但是云计算中储存的信息很多,同时在云计算中的环境也比较的复杂,云计算中的数据会出现滥用的现象,这样会影响用户的信息安全,同时造成一些不法分子利用被盗用的信息进行欺骗用户亲人的行为,同时还会有一些不法分子会利用这些在云计算中盗用的信息进行违法的交易,以此造成云计算中用户的经济遭到损失,这些都是云计算信息被冒用引起的,同时这些都严重威胁了云计算的安全。
3、云计算中容易出现黑客的攻击
黑客攻击指的是利用一些非法的手段进入云计算的安全系统,给云计算的安全网络带来一定的破坏的行为,黑客入侵到云计算后,使云计算的操作带来未知性,同时造成的损失也很大,且造成的损失无法预测,所以黑客入侵给云计算带来的危害大于病毒给云计算带来的危害。此外,黑客入侵的速度远大于安全评估和安全系统的更新速度,使得当今黑客入侵到电脑后,给云计算带来巨大的损失,同时技术也无法对黑客攻击进行预防,这也是造成当今云计算不安全的问题之一。
4、云计算中容易出现病毒
在云计算,大量的用户通过云计算将数据存储到其中,这时大量当云计算出现异常时,就会出现一些病毒,这些病毒的出现会导致以云计算为载体的计算机无法正常工作的现象,同时这些病毒还能进行复制,并通过一些途径进行传播,这样就会导致为云计算为载体的计算机出现死机的现象,同时,因为互联网的传播速度很快,导致云计算或计算机一旦出现病毒,就会很快地进行传播,这样会产生很大的攻击力。
1.9 应用
较为简单的云计算技术已经普遍服务于现如今的互联网服务中,最为常见的就是网络搜索引擎和网络邮箱。搜索引擎大家最为熟悉的莫过于谷歌和百度了,在任何时刻,只要用过移动终端就可以在搜索引擎上搜索任何自己想要的资源,通过云端共享了数据资源。而网络邮箱也是如此,在过去,寄写一封邮件是一件比较麻烦的事情,同时也是很慢的过程,而在云计算技术和网络技术的推动下,电子邮箱成为了社会生活中的一部分,只要在网络环境下,就可以实现实时的邮件的寄发。其实,云计算技术已经融入现今的社会生活。
1、存储云
存储云,又称云存储,是在云计算技术上发展起来的一个新的存储技术。云存储是一个以数据存储和管理为核心的云计算系统。用户可以将本地的资源上传至云端上,可以在任何地方连入互联网来获取云上的资源。大家所熟知的谷歌、微软等大型网络公司均有云存储的服务,在国内,百度云和微云则是市场占有量最大的存储云。存储云向用户提供了存储容器服务、备份服务、归档服务和记录管理服务等等,大大方便了使用者对资源的管理。
2、医疗云
医疗云,是指在云计算、移动技术、多媒体、4G通信、大数据、以及物联网等新技术基础上,结合医疗技术,使用“云计算”来创建医疗健康服务云平台,实现了医疗资源的共享和医疗范围的扩大。因为云计算技术的运用于结合,医疗云提高医疗机构的效率,方便居民就医。像现在医院的预约挂号、电子病历、医保等等都是云计算与医疗领域结合的产物,医疗云还具有数据安全、信息共享、动态扩展、布局全国的优势。
3、金融云
金融云,是指利用云计算的模型,将信息、金融和服务等功能分散到庞大分支机构构成的互联网“云”中,旨在为银行、保险和基金等金融机构提供互联网处理和运行服务,同时共享互联网资源,从而解决现有问题并且达到高效、低成本的目标。在2013年11月27日,阿里云整合阿里巴巴旗下资源并推出来阿里金融云服务。其实,这就是现在基本普及了的快捷支付,因为金融与云计算的结合,现在只需要在手机上简单操作,就可以完成银行存款、购买保险和基金买卖。现在,不仅仅阿里巴巴推出了金融云服务,像苏宁金融、腾讯等等企业均推出了自己的金融云服务。
4、教育云
教育云,实质上是指教育信息化的一中发展。具体的,教育云可以将所需要的任何教育硬件资源虚拟化,然后将其传入互联网中,以向教育机构和学生老师提供一个方便快捷的平台。现在流行的慕课就是教育云的一种应用。慕课MOOC,指的是大规模开放的在线课程。现阶段慕课的三大优秀平台为Coursera、edX以及Udacity,在国内,中国大学MOOC也是非常好的平台。在2013年10月10日,清华大学推出来MOOC平台——学堂在线,许多大学现已使用学堂在线开设了一些课程的MOOC。
1.10 发展问题
1、访问的权限问题
用户可以在云计算服务提供商处上传自己的数据资料,相比于传统的利用自己计算机或硬盘的存储方式,此时需要建立账号和密码完成虚拟信息的存储和获取。这种方式虽然为用户的信息资源获取和存储提供了方便,但用户失去了对数据资源的控制,而服务商则可能存在对资源的越权访问现象,从而造成信息资料的安全难以保障。
2、技术保密性问题
信息保密性是云计算技术的首要问题,也是当前云计算技术的主要问题。比如,用户的资源被一些企业进行资源共享。网络环境的特殊性使得人们可以自由的浏览相关薪资资源,信息资源泄漏是难以避免的,如果技术保密性不足就可能严重影响到信息资源的所有者。
3、数据完整性问题
在云计算技术的使用中,用户的数据被分散的存储与云计算数据中心的不同位置,而不是某个单一的系统中,数据资源的整体性受到影响,使其作用难以有效发挥。另一种情况就是,服务商没有妥善、有效的管理用户的数据信息,从而造成数据存储的完整性受到影响,信息的应用作用难以被发挥。
4、法律法规不完善
云计算技术相关的法律法规不完善也是主要的问题,想要对实现对云计算技术作用的有效发挥,就必须对其相关的法律法规进行完善。目前来看,法律法规尚不完善,云计算技术的作用的发挥仍然受到制约。就当前云计算技术在计算机网络中的应用来看,其缺乏完善的安全性标准,缺乏完善的服务等级协议管理标准,没有明确的责任人承担安全问题的法律责任。另外,缺乏完善的云计算安全管理的损失计算机制和责任评估机制,法律规范的缺乏也制约了各种活动的开展,计算机网络的云计算安全性难以得到保障。
1.11 完善措施
1、合理设置访问权限,保障用户信息安全
当前,云计算机服务由供应商提供,为保障信息安全,供应商应针对用户端的需求情况,设置相应的访问权限,进而保障信息资源的安全分享。在开放式的互联网环境之下,供应商一方面要做好访问权限的设置工作,强化资源的合理分享及应用;另一方面,要做好加密工作,从供应商到用户都应强化信息安全防护,注意网络安全构建,有效保障用户安全。因此,云计算机技术的发展,应强化安全技术体系的构建,在访问权限的合理设置中,提高信息防护水平。
2、强化数据信息完整性,推进存储技术发展
存储技术是计算机云计算技术的核心,如何强化数据信息的完整性,是云计算技术发展的重要方面。首先,云计算资源以离散的方式分布于云系统之中,要强化对云系统中数据资源的安全保护,并确保数据的完整性,这有助于提高信息资源的应用价值;其次,加快存储技术发展,特别是大数据时代,云计算技术的发展,应注重存储技术的创新构建;再次,要优化计算机网络云技术的发展环境,通过技术创新、理念创新,进一步适应新的发展环境,提高技术的应用价值,这是新时期计算机网络云计算机技术的发展重点。
3、建立健全法律法规,提高用户安全意识
随着网络信息技术的不断发展,云计算应用的领域日益广泛。建立完善的法律法规,是为了更好地规范市场发展,强化对供应商、用户等行为的规范及管理,为计算机网络云计算技术的发展提供良好条件。此外,用户端要提高安全防护意识,能够在信息资源的获取中,遵守法律法规,规范操作,避免信息安全问题造成严重的经济损失。因此,新时期计算机网络云计算技术的发展,要从实际出发,通过法律法规的不断完善,为云计算机技术发展提供良好环境。
大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 [1] 中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
2.1 定义
对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
它们按照进率1024(2的十次方)来计算:
1 Byte =8 bit
1 KB = 1,024 Bytes = 8192 bit
1 MB = 1,024 KB = 1,048,576 Bytes
1 GB = 1,024 MB = 1,048,576 KB
1 TB = 1,024 GB = 1,048,576 MB
1 PB = 1,024 TB = 1,048,576 GB
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB = 1,048,576 PB
1 YB = 1,024 ZB = 1,048,576 EB
1 BB = 1,024 YB = 1,048,576 ZB
1 NB = 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB
全称:
1 Bit(比特) =Binary Digit
8 Bits = 1 Byte(字节)
1,000 Bytes = 1 Kilobyte
1,000 Kilobytes = 1 Megabyte
1,000 Megabytes = 1 Gigabyte
1,000 Gigabytes = 1Terabyte
1,000 Terabytes = 1 Petabyte
1,000 Petabytes = 1 Exabyte
1,000Exabytes = 1 Zettabyte
1,000 Zettabytes = 1 Yottabyte
1,000 Yottabytes = 1Brontobyte
1,000 Brontobytes = 1 Geopbyte
2.2 特征
容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息;
种类(Variety):数据类型的多样性;
速度(Velocity):指获得数据的速度;
可变性(Variability):妨碍了处理和有效地管理数据的过程。
真实性(Veracity):数据的质量。
复杂性(Complexity):数据量巨大,来源多渠道。
价值(value):合理运用大数据,以低成本创造高价值。
2.3 结构
大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。据IDC的调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本看起来很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。
其次,想要系统的认知大数据,必须要全面而细致的分解它,着手从三个层面来展开:
第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。在这里从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。
第二层面是技术,技术是大数据价值体现的手段和前进的基石。在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。
第三层面是实践,实践是大数据的最终价值体现。在这里分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。
图1
2.4 应用
洛杉矶警察局和加利福尼亚大学合作利用大数据预测犯罪的发生。
Google流感趋势(Google Flu Trends)利用搜索关键词预测禽流感的散布。
统计学家内特·西尔弗(Nate Silver)利用大数据预测2012美国选举结果。
麻省理工学院利用手机定位数据和交通数据建立城市规划。
梅西百货的实时定价机制。根据需求和库存的情况,该公司基于SAS的系统对多达7300万种货品进行实时调价。
医疗行业早就遇到了海量数据和非结构化数据的挑战,而近年来很多国家都在积极推进医疗信息化发展,这使得很多医疗机构有资金来做大数据分析。
2.5 意义
现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。阿里巴巴创办人马云来台演讲中就提到,未来的时代将不是IT时代,而是DT的时代,DT就是Data Technology数据科技,显示大数据对于阿里巴巴集团来说举足轻重。
有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是赢得竞争的关键。
大数据的价值体现在以下几个方面:
(1)对大量消费者提供产品或服务的企业可以利用大数据进行精准营销;
(2)做小而美模式的中小微企业可以利用大数据做服务转型;
(3)面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值。
不过,“大数据”在经济发展中的巨大意义并不代表其能取代一切对于社会问题的理性思考,科学发展的逻辑不能被湮没在海量数据中。著名经济学家路德维希·冯·米塞斯曾提醒过:“就今日言,有很多人忙碌于资料之无益累积,以致对问题之说明与解决,丧失了其对特殊的经济意义的了解。”这确实是需要警惕的。
在这个快速发展的智能硬件时代,困扰应用开发者的一个重要问题就是如何在功率、覆盖范围、传输速率和成本之间找到那个微妙的平衡点。企业组织利用相关数据和分析可以帮助它们降低成本、提高效率、开发新产品、做出更明智的业务决策等等。例如,通过结合大数据和高性能的分析,下面这些对企业有益的情况都可能会发生:
(1)及时解析故障、问题和缺陷的根源,每年可能为企业节省数十亿美元。
(2)为成千上万的快递车辆规划实时交通路线,躲避拥堵。
(3)分析所有SKU,以利润最大化为目标来定价和清理库存。
(4)根据客户的购买习惯,为其推送他可能感兴趣的优惠信息。
(5)从大量客户中快速识别出金牌客户。
(6)使用点击流分析和数据挖掘来规避欺诈行为。
2.6 趋势
2.6.1 数据的资源化
何为资源化,是指大数据成为企业和社会关注的重要战略资源,并已成为大家争相抢夺的新焦点。因而,企业必须要提前制定大数据营销战略计划,抢占市场先机。
2.6.2 与云计算的深度结合
大数据离不开云处理,云处理为大数据提供了弹性可拓展的基础设备,是产生大数据的平台之一。自2013年开始,大数据技术已开始和云计算技术紧密结合,预计未来两者关系将更为密切。除此之外,物联网、移动互联网等新兴计算形态,也将一齐助力大数据革命,让大数据营销发挥出更大的影响力。
2.6.3 科学理论的突破
随着大数据的快速发展,就像计算机和互联网一样,大数据很有可能是新一轮的技术革命。随之兴起的数据挖掘、机器学习和人工智能等相关技术,可能会改变数据世界里的很多算法和基础理论,实现科学技术上的突破。
2.6.4 数据科学和数据联盟的成立
未来,数据科学将成为一门专门的学科,被越来越多的人所认知。各大高校将设立专门的数据科学类专业,也会催生一批与之相关的新的就业岗位。与此同时,基于数据这个基础平台,也将建立起跨领域的数据共享平台,之后,数据共享将扩展到企业层面,并且成为未来产业的核心一环。
2.6.5 数据泄露泛滥
未来几年数据泄露事件的增长率也许会达到100%,除非数据在其源头就能够得到安全保障。可以说,在未来,每个财富500强企业都会面临数据攻击,无论他们是否已经做好安全防范。而所有企业,无论规模大小,都需要重新审视今天的安全定义。在财富500强企业中,超过50%将会设置首席信息安全官这一职位。企业需要从新的角度来确保自身以及客户数据,所有数据在创建之初便需要获得安全保障,而并非在数据保存的最后一个环节,仅仅加强后者的安全措施已被证明于事无补。
2.6.6 数据管理成为核心竞争力
数据管理成为核心竞争力,直接影响财务表现。当“数据资产是企业核心资产”的概念深入人心之后,企业对于数据管理便有了更清晰的界定,将数据管理作为企业核心竞争力,持续发展,战略性规划与运用数据资产,成为企业数据管理的核心。数据资产管理效率与主营业务收入增长率、销售收入增长率显著正相关;此外,对于具有互联网思维的企业而言,数据资产竞争力所占比重为36.8%,数据资产的管理效果将直接影响企业的财务表现。
2.6.7 数据质量是BI(商业智能)成功的关键
采用自助式商业智能工具进行大数据处理的企业将会脱颖而出。其中要面临的一个挑战是,很多数据源会带来大量低质量数据。想要成功,企业需要理解原始数据与数据分析之间的差距,从而消除低质量数据并通过BI获得更佳决策。
2.6.8 数据生态系统复合化程度加强
大数据的世界不只是一个单一的、巨大的计算机网络,而是一个由大量活动构件与多元参与者元素所构成的生态系统,终端设备提供商、基础设施提供商、网络服务提供商、网络接入服务提供商、数据服务使能者、数据服务提供商、触点服务、数据服务零售商等等一系列的参与者共同构建的生态系统。而今,这样一套数据生态系统的基本雏形已然形成,接下来的发展将趋向于系统内部角色的细分,也就是市场的细分;系统机制的调整,也就是商业模式的创新;系统结构的调整,也就是竞争环境的调整等等,从而使得数据生态系统复合化程度逐渐增强。
2.7 IT分析工具
大数据概念应用到IT操作工具产生的数据中,大数据可以使IT管理软件供应商解决大广泛的业务决策。IT系统、应用和技术基础设施每天每秒都在产生数据。大数据非结构化或者结构数据都代表了“所有用户的行为、服务级别、安全、风险、欺诈行为等更多操作”的绝对记录。
大数据分析的产生旨在于IT管理,企业可以将实时数据流分析和历史相关数据相结合,然后大数据分析并发现它们所需的模型。反过来,帮助预测和预防未来运行中断和性能问题。进一步来讲,他们可以利用大数据了解使用模型以及地理趋势,进而加深大数据对重要用户的洞察力。他们也可以追踪和记录网络行为,大数据轻松地识别业务影响;随着对服务利用的深刻理解加快利润增长;同时跨多系统收集数据发展IT服务目录。
大数据分析的想法,尤其在IT操作方面,大数据对于我们发明并没有什么作用,但是我们一直在其中。Gartner已经关注这个话题很多年了,基本上他们已经强调,如果IT正在引进新鲜灵感,他们将会扔掉大数据老式方法开发一个新的IT操作分析平台。
2.8 促进发展
经李克强总理签批,2015年9月,国务院印发《促进大数据发展行动纲要》(以下简称《纲要》),系统部署大数据发展工作。
《纲要》明确,推动大数据发展和应用,在未来5至10年打造精准治理、多方协作的社会治理新模式,建立运行平稳、安全高效的经济运行新机制,构建以人为本、惠及全民的民生服务新体系,开启大众创业、万众创新的创新驱动新格局,培育高端智能、新兴繁荣的产业发展新生态。
《纲要》部署三方面主要任务。一要加快政府数据开放共享,推动资源整合,提升治理能力。大力推动政府部门数据共享,稳步推动公共数据资源开放,统筹规划大数据基础设施建设,支持宏观调控科学化,推动政府治理精准化,推进商事服务便捷化,促进安全保障高效化,加快民生服务普惠化。二要推动产业创新发展,培育新兴业态,助力经济转型。发展大数据在工业、新兴产业、农业农村等行业领域应用,推动大数据发展与科研创新有机结合,推进基础研究和核心技术攻关,形成大数据产品体系,完善大数据产业链。三要强化安全保障,提高管理水平,促进健康发展。健全大数据安全保障体系,强化安全支撑。
2015年9月18日贵州省启动我国首个大数据综合试验区的建设工作,力争通过3至5年的努力,将贵州大数据综合试验区建设成为全国数据汇聚应用新高地、综合治理示范区、产业发展聚集区、创业创新首选地、政策创新先行区。
围绕这一目标,贵州省将重点构建“三大体系”,重点打造“七大平台”,实施“十大工程”。
“三大体系”是指构建先行先试的政策法规体系、跨界融合的产业生态体系、防控一体的安全保障体系;“七大平台”则是指打造大数据示范平台、大数据集聚平台、大数据应用平台、大数据交易平台、大数据金融服务平台、大数据交流合作平台和大数据创业创新平台;“十大工程”即实施数据资源汇聚工程、政府数据共享开放工程、综合治理示范提升工程、大数据便民惠民工程、大数据三大业态培育工程、传统产业改造升级工程、信息基础设施提升工程、人才培养引进工程、大数据安全保障工程和大数据区域试点统筹发展工程。
此外,贵州省将计划通过综合试验区建设,探索大数据应用的创新模式,培育大数据交易新的做法,开展数据交易的市场试点,鼓励产业链上下游之间的数据交换,规范数据资源的交易行为,促进形成新的业态。
国家发展改革委有关专家表示,大数据综合试验区建设不是简单的建产业园、建数据中心、建云平台等,而是要充分依托已有的设施资源,把现有的利用好,把新建的规划好,避免造成空间资源的浪费和损失。探索大数据应用新的模式,围绕有数据、用数据、管数据,开展先行先试,更好地服务国家大数据发展战略。
2016年3月17日,《中华人民共和国国民经济和社会发展第十三个五年规划纲要》发布,其中第二十七章“实施国家大数据战略”提出:把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新;具体包括:加快政府数据开放共享、促进大数据产业健康发展。
3.1 云计算与大数据的关系
简单来说:云计算是硬件资源的虚拟化,而大数据是海量数据的高效处理。虽然从这个解释来看也不是完全贴切,但是却可以帮助对这两个名字不太明白的人很快理解其区别。当然,如果解释更形象一点的话,云计算相当于我们的计算机和操作系统,将大量的硬件资源虚拟化后在进行分配使用。
可以说,大数据相当于海量数据的“数据库”,通观大数据领域的发展我们也可以看出,当前的大数据发展一直在向着近似于传统数据库体验的方向发展,一句话就是,传统数据库给大数据的发展提供了足够大的空间。
大数据的总体架构包括三层:数据存储,数据处理和数据分析。数据先要通过存储层存储下来,然后根据数据需求和目标来建立相应的数据模型和数据分析指标体系对数据进行分析产生价值。
而中间的时效性又通过中间数据处理层提供的强大的并行计算和分布式计算能力来完成。三者相互配合,这让大数据产生最终价值。
不看现在云计算发展情况,未来的趋势是:云计算作为计算资源的底层,支撑着上层的大数据处理,而大数据的发展趋势是,实时交互式的查询效率和分析能力,借用Google一篇技术论文中的话:“动一下鼠标就可以在妙极操作PB级别的数据”,确实让人兴奋不能止。
3.2 云计算在大数据中的作用
大数据和云计算的关系可以根据服务类型进行分类:
IAAS在公共云中
IaaS是一种经济高效的解决方案,利用此云服务,大数据服务使人们能够访问无限的存储和计算能力。对于云提供商承担所有管理基础硬件费用的企业而言,这是一种非常经济高效的解决方案。
私有云中的PAAS
PaaS供应商将大数据技术纳入其提供的服务。因此,它们消除了处理管理单个软件和硬件元素的复杂性的需求,而这在处理TB级数据时是一个真正的问题。
混合云中的SAAS
如今,分析社交媒体数据已成为公司进行业务分析的基本参数。在这种情况下,SaaS供应商提供了进行分析的出色平台。
3.3 大数据与云计算的联系
从以上描述中,我们可以看到,Cloud通过可伸缩且灵活的自助服务应用程序抽象了挑战和复杂性,从而启用了“即服务”模式。从最终用户提取海量数据的分布式处理时,大数据需求是相同的。
云中的大数据分析有多个好处。
改进分析
随着云技术的进步,大数据分析变得更加完善,从而带来了更好的结果。因此,公司倾向于在云中执行大数据分析。此外,云有助于整合来自众多来源的数据。
简化的基础架构
大数据分析是基础架构上一项艰巨的艰巨工作,因为数据量大,速度和传统基础架构通常无法跟上的类型。由于云计算提供了灵活的基础架构,我们可以根据当时的需求进行扩展,因此管理工作负载很容易。
降低成本
大数据和云技术都通过减少所有权来为组织创造价值。云的按用户付费模型将CAPEX转换为OPEX。另一方面,Apache降低了大数据的许可成本,该成本应该花费数百万美元来构建和购买。云使客户无需大规模的大数据资源即可进行大数据处理。因此,大数据和云技术都在降低企业成本并为企业带来价值。
安全与隐私
数据安全性和隐私性是处理企业数据时的两个主要问题。此外,当您的应用程序由于其开放的环境和有限的用户控制安全性而托管在Cloud平台上时,这成为主要的问题。另一方面,像Hadoop这样的大数据解决方案是一个开源应用程序,它使用了大量的第三方服务和基础架构。因此,如今,系统集成商引入了具有弹性和可扩展性的私有云解决方案。此外,它还利用了可扩展的分布式处理。
除此之外,云数据是在通常称为云存储服务器的中央位置存储和处理的。服务提供商和客户将与之一起签署服务水平协议(SLA),以获得他们之间的信任。如果需要,提供商还可以利用所需的高级安全控制级别。这可确保涵盖以下问题的云计算中大数据的安全性:
1.保护大数据免受高级威胁。
2.云服务提供商如何维护存储和数据。
有一些与服务级别协议相关的规则可以保护
数据
容量
可扩展性
安全
隐私
数据存储的可用性和数据增长
另一方面,在许多组织中,大数据分析被用来检测和预防高级威胁和恶意黑客。
虚拟化
基础架构在支持任何应用程序中都起着至关重要的作用。虚拟化技术是大数据的理想平台。像Hadoop这样的虚拟化大数据应用程序具有多种优势,这些优势在物理基础架构上是无法访问的,但它简化了大数据管理。大数据和云计算指出了各种技术和趋势的融合,这使IT基础架构和相关应用程序更加动态,更具消耗性和模块化。因此,大数据和云计算项目严重依赖虚拟化
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。