赞
踩
互联网技术兴起,数据大爆炸为大数据应用的兴起做了铺垫,在海量数据处理技术在电子商务、定向广告、智能推荐、社交网络等方面得到应用,取得巨大的商业成功,这启发全社会开始重新审视数据的巨大价值。
2011年麦肯锡、世界经济论坛等知名机构对这种数据驱动的创新进行了研究总结,随即在全世界兴起了一股大数据热潮。
从数据在信息系统中的生命周期看,大数据从数据源经过分析挖掘到最终获得价值一般需要经过 5 个主要环节,包括数据准备(清洗整理)、数据存储与管理、计算处理、数据分析和知识展现。
大数据对数据分析、计算和存储三个环节影响较大,需要对技术架构和算法进行重构,是当前和未来一段时间大数据技术创新的焦点。
大数据存储的两个挑战一是存储技术,二是多种数据格式的适应能力,大数据是密集型计算,更加依赖并行架构。目前海量数据中只有一小部分潜在知识被充分挖掘,目前数据分析需要在两个方面取得突破,一是对体量庞大的结构化和半结构化数据进行高效率的深度分析,挖掘隐性知识,如从自然语言构成的文本网页中理解和识别语义、情感、意图等;二是对非结构化数据进行分析,将海量复杂多源的语音、图像和视频数据转化为机器可识别的、具有明确语义的信息,进而从中提取有用的知识。
互联网行业是大数据应用的领跑者,大数据应用加速向传统领域拓展,大数据应用呈现初级发展阶段特征。
大数据产业生态中主要包括大数据解决方案提供商、大数据处理服务提供商和数据资源提供商三个角色,分别向大数据的应用者提供大数据服务、解决方案和数据资源。
传统 IT 厂商加快向大数据解决方案提供商转型,云服务商成为大数据处理服务提供商的主体,大数据资源提供商应运而生。
大数据再认识:大数据的3V特征(体量大、结构多样、产生处理速度快),从技术视角看,大数据代表了新一代数据管理与分析技术,从理念的视角看,大数据打开了一种全新的思维角度,目前很多“大数据应用”,要么数据量不够大,要么并非必须使用新一代技术,但体现了数据驱动和数据闭环的思维,改进了生产管理效率,这是大数据思维理念应用的体现。
大数据产业界定:大数据产业可以从狭义和广义两个层次界定。从狭义看,当前全球围绕大数据采集、存储、管理和挖掘,正在逐渐形成了一个“小生态”,即大数据核心产业。大数据核心产业为全社会大数据应用提供数据资源、产品工具和应用服务,支撑各个领域的大数据应用,是大数据在各个领域应用的基石。应该注意到,狭义大数据产业仍然围绕信息的采集加工构建,属于信息产业的一部分。
从广义看,大数据具有通用技术的属性,能够提升运作效率,提高决策水平,从而形成由数据驱动经济发展的“大生态”,即广义大数据产业。广义大数据产业包含了大数据在各个领域的应用,已经超出了信息产业的范畴。
大数据关键问题:一是对数据资源及其价值的认识不足,二是技术创新与支撑能力不够,三是数据资源建设和应用水平不高,四是信息安全和数据管理体系尚未建立,五是人才队伍建设亟需加强。
社交网络和物联网技术拓展了数据采集技术渠道,分布式存储和计算技术夯实了大数据处理的技术基础,深度神经网络等新兴技术开辟大数据分析技术的新时代
数据资源现状是总量越来越大,大数据资源开放与共享可助力各行业产业升级。
推进政府数据资源开放共享是实施大数据战略的关键,也就是着力解决“不愿开放共享”、“不敢开放共享”、“不会开放共享”问题,打破部门分割和行业壁垒,促进互联互通、数据开放、信息共享和业务协同,切实以数据流引领技术流、物资流、资金流、人才流,强化统筹衔接和条块结合,实现跨部门、跨区域、跨层级、跨系统的数据交换与共享,构建全流程、全覆盖、全模式、全响应的信息化管理与服务体系。
关于政府资源共享,政府数据资源可以与社会数据资源互为补充,服务于新兴业态的发展。政府数据资源基于公共事务管理和服务采集和产生,具有较强的公信力,甚至可能是唯一的数据来源,能够促进简单或片面的数据资源进行深度挖掘利用。政府数据资源采集和产生已经付出了财政成本,在政府利用之余“一次投入,全民利用”,能够降低全社会的数据资源利用成本,促进企业产品产出和社会福利提升。
关于数据交易流通,信息消费市场规模量级巨大,增长迅速。中国潜在的大数据资源非常丰富,从电信、金融、社保、房地产、医疗、政务、交通、物流、征信体系等部门,到电力、石化、气象、教育、制造等传统行业,再到电子商务平台、社交网站等,覆盖广泛。如果数据交易行业可以得到充分、健康发展,必将对国民经济各个方面起到积极的影响。另外需要注意对个人隐私数据的保护,并加大力度研究探索市场化的技术。
传统的数据应用主要集中在对业务数据的统计分析,作为系统或企业的辅助支撑,应用范围以系统内部或企业内部为主,例如各类统计报表、展示图表等。伴随着各种随身设备、物联网和云计算、云存储等技术的发展,数据内容和数据格式多样化,数据颗粒度也愈来愈细,随之出现了分布式存储、分布式计算、流处理等大数据技术,各行业基于多种甚至跨行业的数据源相互关联探索更多的应用场景,同时更注重面向个体的决策和应用的时效性。因此,大数据的数据形态、处理技术、应用形式构成了区别于传统数据应用的大数据应用。
大数据应用尚处发展前期阶段,存在“忽悠”出来的“泡沫”成分,大数据应用水平较高的行业主要分布在互联网、电信、金融行业,一些传统行业的大数据应用发展较为缓慢,批发零售业甚至有超过80%的企业并没有大数据应用计划,远低于整体平均水平。电信、金融、政务、交通、医疗行业均在逐步加深对大数据技术的应用。
大数据应用发展趋势:大数据行业应用的发展,是沿袭数据分析应用而来的渐变的过程。观察大数据应用的发展演变,可以从技术强度、数据广度和应用深度三个视角切入。
重点关注的几个点:政府数据开放与信息公开,个人数据保护,跨境数据流动,数据权属问题
一是避免盲目跟风,大数据热潮还需冷思考,二是推动开放共享,倒逼信息化建设升级,三是强调供需对接,拉动技术产业跨越发展,四是完善法律制度,切实保障数据安全,五是突出地方特色,形成差异化的区域产业布局
大数据在政策、技术、产业、应用等多个层面都取得了显著进展。但还有三个问题一是技术创新与支撑能力依然不够,二是信息安全和数据管理体系仍未建立,三是人才队伍建设亟需加强
一是推动大数据技术产业创新发展;二是构建以数据为关键要素的数字经济;三是运用大数据提升国家治理现代化水平;四是运用大数据促进保障和改善民生;五是切实保障国家数据安全与完善数据产权保护制度。
从2005年Hadoop的诞生开始,形成了数据分析技术体系这一热点。伴随着数据量的急剧增长和核心系统对吞吐量以及时效性的要求提升,传统数据库需要向分布式转型,形成了事务处理技术体系这一热点。然而,时代的发展使得单个企业、甚至单个行业的数据都难以满足要求,数据融合的价值更加显现,形成了数据流通技术体系这一热点。
数据分析技术生态主要有5个发展方向,包括数据采集与传输、数据存储与管理、计算处理、查询与分析、可视化展现。从技术的演进来看数据分析有了以下特点:更快、流处理的加强、硬件能力的充分挖掘、SQL 的支持、深度学习的支持。
传统事务技术模式以集中式数据库的单点架构为主,通过提高单机的性能上限适应业务的扩展。随着摩尔定律的失效要求数据库系统应具备大规模并发事务处理的能力。Paxos、Raft 等一致性协议的诞生为事务系统的分布式铺平了道路。新一代分布式数据库技术在这些因素的推动下应运而生。
数据流通伴随着权属、质量、合规性、安全性等诸多问题。从概念上讲,基础的数据流通只存在数据供方和数据需方这两类角色,数据从供方通过一定手段传递给需方。然而,由于数据权属和安全的需要,不能简单地将数据直接进行传送。数据流通的过程中需要完成数据确权、控制信息计算、个性化安全加密等一系列信息生产和再造,形成闭合环路。安全多方计算和区块链是近年来常用的两种技术框架。由于创造价值的往往是对数据进行的加工分析等运算的结果而非数据本身,因此对数据需方来说,本身不触碰数据、但可以完成对数据的加工分析操作,也是可以接受的。安全多方计算这个技术框架就实现了这一点。其围绕数据安全计算,通过独特的分布式计算技术和密码技术,有区分的、定制化的提供安全性服务,使得各参与方在无需对外提供原始数据的前提下实现了对与其数据有关的函数的计算,解决了一组互不信任的参与方之间保护隐私的协同计算问题。区块链技术中多个计算节点共同参与和记录,相互验证信息有效性,既进行了数据信息防伪,又提供了数据流通的可追溯路径。业务平台中授权和业务流程的解耦对数据流通中的溯源、数据交易、智能合约的引入有了实质性的进展。除了以上两种技术框架外,近年来还涌现出多种数据流通的技术工具,这里将其列表总结如下。
行业应用大数据的特点,一是业务类型不均衡,营销分析、客户分析和内部运营管理是应用最广泛的三个领域,相比之下大数据分析在产品设计、产品生产、企业供应链管理等核心业务的应用比例还有待提升,大规模应用尚未展开。二是地域分布不均衡,主要分布在北京、上海、广东、浙江等东部发达地区,三是行业分布不均衡,大数据与金融、政务、电信等行业的融合效果较好,而在其它众多行业的融合效果则有待深化。
行业应用大数据的深层分析,企业和行业大数据应用体系其实就是在生产业务系统之外构建统一的企业级数据仓库,除技术架构外,企业级数据仓库的建设还包括数据模型、数据管理体系以及数据应用体系的建设,整个企业级数据仓库最终实施效果依赖于企业内部专业而有力度的组织机构来推动。
行业应用大数据的关键因素,一是要建立一体化的大数据平台,二是要形成良好的数据管理体系,三是形成平民化的数据应用,四是组建强有力的数据管理部门。
如何健全和完善政务数据的应用机制、厘清政务存量数据、将数据进行共享开放、从数据中挖掘价值,最终用于政府治理,切实解决人民群众在同政府打交道时的实际困难、社会企业对于政务数据的迫切需求和提升政府工作效率成为政务大数据深层次应用的最主要问题。
政务大数据总体要求,各指导性文件逐步明确了四个方面的内容,一是在政务信息共享原则方面,提出以共享为原则,不共享为例外;需求导向,无偿使用;统一标准,统筹建设;建立机制,保障安全。二是在政务信息资源分类方面,提出将现有的政务信息按照重要程度和等级分类,划分为无条件共享、有条件共享和不予共享三类。三是在平台建设方面,提出共享平台是管理国家政务信息资源目录、支撑各政务部门开展政务信息资源共享交换的国家关键信息基础设施,包括共享平台(内网)和共享平台(外网)两部分。四是在分工职责方面,提出了国家发展改革委、国家网信办组织编制信息共享工作评价办法,国家网信办负责组织建立政务信息资源共享网络安全管理制度,国家发展改革委、财政部、国家网信办建立国家政务信息化项目建设投资和运维经费协商机制。
具体提出十项主要任务和方法,包括上下联动,开展“互联网+政务服务”试点;一体化服务,规范网上政务服务平台体系建设;完善标准,加快构建政务信息共享标准体系;构建目录,开展政务信息资源目录编制和全国大普查;强化协同,推进全国政务信息共享网站建设;推动开放,加快公共数据开放网站建设;促进共享,推进接入即统一数据共享交换平台;设施共建,提升国家统一电子政务网络支撑能力;推进整合,加快部门内部信息系统整合共享;审、清结合,加快消除“僵尸”信息系统。
统一数据资源整合和基础设施建设、整合和升级信息系统、完善数据资源标准体系建设。
总体要求是打通政府间数据壁垒和隔阂,实现政府数据的跨部门流动和互通,建立“用数据说话、用数据决策、用数据管理、用数据创新”的政府管理机制,推进国家治理能力现代化。
实现政府数据依托两大平台向社会开放,是建立健全数据驱动型增长新模式,推动经济社会全面发展,促进治理能力现代化的重要抓手。
总体来看,我国大数据产业目前仍处于蓬勃发展阶段,逐步形成区域协调发展局面。
数据治理和数据资产管理的重要性愈发凸显。有效的数据资产管理是大数据与实体经济深度融合的必经之路。
数据资产管理的定位和范畴,它位于应用和大数据底层平台中间。数据资产管理主要包含9个活动职能和2个保障措施,9个活动职能指的是数据标准管理、数据模型管理、元数据管理、主数据管理、数据质量管理、数据生命周期管理、数据安全管理、数据资产价值评估和数据资产运营流通,2个保障措施包括组织架构和制度体系。
数据资产管理面临的挑战,一是缺乏统一数据标准,二是数据周期规划混乱,三是难以统筹业务管理,四是数据处理效率低下,五是数据质量参差不齐,六是数据垃圾亟待解决,七是安全监管势在必行,八是数据价值难以评估。
数据资产管理的发展趋势,一是数据对象纷繁复杂,目前,企业数据管理的主要数据对象仍然是结构化的文本数据。未来,随着网络爬虫、视频处理、语音识别、自然语言处理、图像处理、人脸识别等相关技术逐渐成熟并被产业界进一步深度应用,城市数据、视频数据、语音数据、图形图像数据等将被越来越多的进行管理和应用。二是数据采集途径丰富,随着传感器、5G及NB-IoT的发展,数据采集及传输途径也将得以扩充。第三是处理架构更新换代,由于越来越多的文件、文本、日志等半结构化、非结构化数据加入形成“数据湖”,数据的处理架构也在发生变化。第四是组织职能升级变迁,当前主流管理制度体系中,数据管理职能由IT部门来负责,业务部门配合IT部门执行数据管理并提出需求。未来,随着数据分析与业务融合越来越深入,业务部门将成为数据应用的主角,在数据资产管理中扮演越来越重要的角色。第五是管理手段自动智能,依靠“手工人力”的电子表格数据治理模式即将被“自动智能”的“专业工具”取代,第六是应用范围不断扩大,数据的应用范围将由传统的内部应用为主发展为支撑内部和服务外部并重。数据资产的意义价值也从对内强化能力扩展到了对外合作开放上,从而实现数据资产保值到增值的跨越。内部应用一般包括管理优化、研判决策、风险规避、业务拓展、管控成本等。由原来的只应用于领导决策场景扩展到全员业务分析使用。外部运营包括智能推荐、精准营销、分析报告以及风险防控等。从使用对象来看,数据资产的使用者不仅包括企业决策人员,还包括运维用户、业务管理人员、数据分析人员、数据科学家等各种角色。
数据资产管理的主体可以从企业向更广泛的概念推广。个人层面,个人数据利用与数据安全保护之间需要合理的平衡,实现可控的隐私保护目标。企业层面,数据资产价值的估算可以帮助企业更准确的掌握信息化投资收益,也是数据交易流通的前提之一。好的数据资产管理策略能有效规避风险,节约投入成本。社会层面,受限于数据汇聚程度、数据规模和数据源种类的丰富程度,社会能够感知的数据应用场景较为单一,主要集中在精准营销,舆情感知和风险控制等有限场景,应用深度不够,应用空间,尤其是能够惠及大众的应用空间亟待开发。国家层面,数据资产的运营流通需要国家层面的监管治理,合法合规性是数据运营流通的首要前提,是国家促进大数据发展,保障人民群众权益的关键纽带。国际层面,数据资产管理知识体系涉及管理、技术等多个学科,是一个非常复杂的系统工程,涉及很多技术难点和管理内容需要结合多方力量达成一致标准,国际化的共识机制是数据资产管理有效执行的重要前提和保障。
政府数据开放、个人信息保护、数据流通规则
一是制度与技术双管齐下,打破数据孤岛,二是内部与外部多重并举,推动数据治理,三是业务与数据加速融合,深化数据应用,四是监管与自律同时推进,保障数据安全
算力融合:多样性算力提升整体效率
流批融合:平衡计算性价比的最优解
TA融合:混合事务/分析支撑即时决策
模块融合:一站式数据能力复用平台
云数融合:云化趋势降低技术使用门槛
数智融合:数据与智能多方位深度整合
技术方面,我们仍然处在“数据大爆发”的初期,随着5G、工业互联网的深入发展,将带来更大的“数据洪流”,这就为大数据的存储、分析、管理带来更大的挑战,牵引大数据技术再上新的台阶。硬件与软件的融合、数据与智能的融合将带动大数据技术向异构多模、超大容量、超低时延等方向拓展。应用方面,大数据行业应用正在从消费端向生产端延伸,从感知型应用向预测型、决策型应用发展。当前,互联网行业已经全面进入“DT时代”。未来几年,随着各地政务大数据平台和大型企业数据中台的建成,将促进政务、民生与实体经济领域的大数据应用再上新的台阶。治理方面,随着国家数据安全法律制度的不断完善,各行业的数据治理也将深入推进。数据的采集、使用、共享等环节的乱象得到遏制,数据的安全管理成为各行各业自觉遵守的底线,数据流通与应用的合规性将大幅提升,健康、可持续的大数据发展环境逐步形成。
然而,我国大数据发展也同样面临着诸多问题。例如,大数据原创性的技术和产品尚不足;数据开放共享水平依然较低,跨部门、跨行业的数据流通仍不顺畅,有价值的公共信息资源和商业数据没有充分流动起来;数据安全管理仍然薄弱,个人信息保护面临新威胁与新风险。这就需要大数据从业者们在大数据理论研究、技术研发、行业应用、安全保护等方面付出更多的努力。
新的时代,新的机遇。我们也看到,大数据与 5G、人工智能、区块链等新一代信息技术的融合发展日益紧密。特别是区块链技术,一方面区块链可以在一定程度上解决数据确权难、数据孤岛严重、数据垄断等“先天病”,另一方面隐私计算技术等大数据技术也反过来促进了区块链技术的完善。在新一代信息技术的共同作用下,我国的数字经济正向着更加互信、共享、均衡的方向发展,数据的“生产关系”正在进一步重塑。
随着数字经济在全球加速推进以及5G、人工智能、物联网等相关技术的快速发展,数据已成为影响全球竞争的关键战略性资源。只有获取和掌握更多的数据资源,才能在新一轮的全球话语权竞争中占据主导地位,2020 年以来,各国数据战略布局步伐加快。
2014 年以来,我国大数据战略的谋篇布局大致经历了四个不 同阶段,正逐步从数据大国向数据强国迈进。
美国联邦数据战略焦点从“技术”转移到“资源”。欧盟数据战略致力于发展数据敏捷型经济体。英国期待数据战略助力经济复苏。国际上在新的国际经贸规则中,跨境数据流通成为全球双边/多边贸易合作的重要议题。
近年来大数据技术从基本的面向海量数据的存储、处理、分析等需求的核心技术延展到相关的管理、流通、安全等其他需求的周边技术,逐渐形成了一整套大数据技术体系,成为数据能力建设的基础设施。伴随着技术体系的完善,大数据技术开始向着降低成本、增强安全的方向发展。
**大数据基础技术为应对大数据时代的多种数据特征而产生。**大数据时代,数据量大、数据源异构多样、数据实效性高等特征催生了高 效完成海量异构数据存储与计算的技术需求。
数据管理类技术助力提升数据质量与可用性。最初,企业与组织内部的大量数据因缺乏有效的管理,普遍存在着数据质量低、获取难、整合不易、标准混乱等问题,使得数据后续的使用存在众多障碍。在此情况下,用于数据整合的数据集成技术,以及用于实现一系列数据资产管理职能的数据管理技术随之出现。
数据分析应用技术发掘数据资源的内蕴价值,用以发掘数据价值的数据分析应用技术,包括以 BI(Business Intelligence)工具为代表的简单统计分析与可视化展现技术,及以传统机器学习、基于深度神经网络的深度学习为基础的挖掘分析建模技术纷纷涌现
数据安全流通技术助力安全合规的数据使用及共享,在数据价值的释放初现曙光的同时,数据安全问题也愈加凸显,数据泄露、数据丢失、数据滥用等安全事件层出不穷,对国家、企业和个人用户造成了恶劣影响,如何应对大数据时代下严峻的数据安全威胁,在安全合规的前提下共享及使用数据成为了备受瞩目的问题。访问控制、身份识别、数据加密、数据脱敏等传统数据保护技术正积极向更加适应大数据场景的方向不断发展,同时,侧重于实现安全数据流通的隐私计 算技术也成为了热点发展方向。
以往,为了应对网络速度不足、数据在各节点间交换时间较长的问题,大数据分布式框架设计采用存储与计算耦合,使数据在自身存储的节点上完成计算,以降低交互。同时,无论是私有化部署还是 云化服务,大数据平台始终以具备数据存储计算处理分析等完整能力 的形态提供服务。
存储与计算耦合的自建平台造成了额外成本,存算分离有效控制成本,按需索取的处理分析能力服务化概念开始流行,国内外众多厂商深入进行了存算分离和能力服务化的实践。
数据管理依赖人工操作带来居高不下的人力成本,数据管理技术包括数据集成、元数据、数据建模、数据标准管理、数据质量管理和数据资产服务,通过汇聚盘点数据和提升数据质量,增强数据的可用性和易用性,进一步释放数据资产的价值。目前以上技术多集成于数据管理平台,作为开展数据管理的统一工具。但是数据管理平台仍自动化、智能化程度低的问题,实际使用中需要人工进行数据建模、数据标准应用、数据剖析等操作。
更加自动化智能化的数据管理平台助力数据管理工作高效进行,其中数据建模、数据标签、主数据发现、数据标准应用成为几个主要的应用方向。数据建模方面,机器学习技术通过识别数据特征,推荐数据主题分类,进一步实现自动化建立概念数据模型,同时,对表间关系的识别将大大降低逆向数据建模的人力成本,便于对数据模型持续更新。数据标准应用方面,基于业务含义、数据特征、数据关系等维度的相似度判别,在数据建模时匹配数据标准,不仅提升了数据标准的应用覆盖面,也减少了数据标准体系的维护成本。数据剖析方面,人工智能通过分析问题数据和学习数据质量知识库,提取数据质量评估维度和数据质量稽核规则,并识别关联数据标准,实现自动化的数据质量事前、事中、事后管理。
传统数据分析方法难以应对图结构数据中关联关系的分析需求。以社交网络、用户行为、网页链接关系等为代表的数据,往往需要通过“图”的形态以最原始、最直观的方式展现其关联性。在图的形式下,自然而然地存在着连通性、中心度、社区关系等一系列内蕴的关联关系,这类依赖于对图结构本身进行挖掘分析的需求难以通过分类、聚类、回归和频繁模式挖掘等传统数据分析方法进行实现,需要能够对于图结构本身进行存储、计算、分析挖掘的技术合力完成。
专注于图结构数据的图分析技术成为数据分析技术的新方向。与图分析相关的多项技术均 成为热点的产品化方向,其中以对图模型数据进行存储和查询的图数据库、对图模型数据应用图分析算法的图计算引擎、对图模型数据进行抽象以研究展示实体间关系的知识图谱三项技术为主。通过组合使用图数据库、图计算引擎和知识图谱,使用者可以对图结构中实体点间存在的未知关系进行探索和发掘,充分获取其中蕴含的依赖图结构的关联关系。
除了对数据进行分析挖掘以外,数据的共享及流通是另一个实现数据价值释放的方向。无论是直接对外提供数据查询服务还是与外部数据进行融合分析应用,都是实现数据价值变现的重要方式。
基于隐私计算的数据流通技术成为实现数据联合计算的主要思路。为旨在保护数据本身不对外泄露的前提下实现数据融合的一类信息技术,隐私计算为实现安全合规的数据流通带来了可能。当前,隐私计算技术主要分为多方安全计算和可信硬件两大流派。其中,多方安全计算基于密码学理论,可以实现在无可信第三方情况下安全地进行多方协同计算;可信硬件技术则依据对于安全硬件的信赖,构建一个硬件安全区域,使数据仅在该安全区域内进行计算。在认可密码学或硬件供应商的信任机制的情况下,两类隐私计算技术均能够在数据本身不外泄的前提下实现多组织间数据的联合计算。此外,还有联邦学习、共享学习等通过多种技术手段平衡了安全性和性能的隐私保护技术,也为跨企业机器学习和数据挖掘提供了新的解决思路。
出于理解视角的差异,大数据产业内涵的界定目前仍有争议。一类观点从产业经济学出发,认为大数据产业是以大数据为出发点和落脚点,通过对自身生产或从外部获取的数据进行挖掘、应用以创造价值的经济活动集合。但也有一类观点认为大数据只是现代信息技术产业中的一部分,因为大数据的本质是在互联网、软件、计算机等基础上实现的数据服务,其围绕的数据采集、传输、加工、分析、应用等一系列活动仍包含于现代信息技术产业的范畴之内。从大数据的价值体现出发,结合以上各类研究机构和学者的观点,我们认为大数据产业是以数据及数据所蕴含的信息价值为核心生产要素,通过数据技术、数据产品、数据服务等形式,使数据与信息价值在各行业经济活动中得到充分释放的赋能型产业。
不同大数据产业分类方式间的对应关系如下:
一是提供数据或技术工具,二是提供独立的数据服务,三是提供整体化的解决方案
大数据产业主体从“硬”设施向“软”服务转变的态势将更加明显,面向金融、政务、电信、医疗等领域的大数据服务将实现倍增创新,大数据与特定场景的结合度日益深化,应用成熟度和商业化程度将持 续升级。现状特点:大数据企业数量平稳增长,10-100 人的小型企业占主导,地域分布以北上广为主,行业应用领域丰富。
大数据在工业领域的应用不断深入拓展,驱动网络化协同、个性化定制、智能化生产等新业态新模式快速发展。电信、互联网、金融等重点领域优秀大数据产品和解决方案加速涌现,精准营销、智能推介等应用日益成 熟。疫情监测、病毒溯源、资源调配、行程跟踪等大数据创新应用场景快速兴起迭代,在常态化疫情防控中发挥了突出作用。
一是疫情分析展现,二是疫情防控管制,三是医疗医治增效,四是生活便民举措,五是复工复产管理。
案例:通信大数据行程卡有效助力疫情防控
2020年2月,在工业和信息化部领导下,中国信通院、中国电信、中国移动、中国联通共同推出“通信大数据行程卡”,通信大数据行程卡的技术原理是分析手机“信令数据”,获取用户设备所在位置信息。
通信大数据作为大数据产业的重要组成部分,一直备受产业各方关注。相对于其他行业,通信大数据具备全面、动态、实时的特点,形成了独特的优势:一是数据资源优势,通信数据规模巨大,基于16亿移动电话用户、2亿固定电话用户、3亿固定宽带用户,运营商每天可搜集PB级的数据;二是基础设施优势,高速的网络带宽、全面的网络覆盖和高效的网络运维等为通信大数据的应用提供了可靠保障。 目前,通信与其他行业间的数据融合成为通信大数据应用的热点方向,公共安全、民生服务、旅游开发、商业推广等众多领域均已有了代表性的实践案例。在通信大数据的应用中,保护个人信息始终是前提。目前主要的应用场景全部都采用经脱敏、泛化后的数据或不针对特定个人的群体统计数据。
随着5G的全面商用、物联网等相关技术的深化拓展和多样化智能终端的逐渐普及,通信大数据将有更为广阔的应用空间,发展趋势:一是合规性要求进一步提升,二是价值释放的路径更加多元,三是应用模式将更加丰富
随着网络化协同、个性化定制、供应链金融等新业态新模式的快速发展,“十四五”期间,我国工业大数据将呈现如下的发展趋势:一是积累和拓展更多的应用场景,二是融合更多相关技术
互联网行业拥有的数据优势得天独厚。一方面,随着移动信息技术的不断进步,越来越多、种类各异的互联网应用迅速落地,使得互联网行业自身便可产生大规模、多维度、高价值的数据资源;另一方面,互联网为传输数据而生,在“互联网+”的新经济形态下,各行业产生的数据资源大都要借助互联网技术进行流通、共享与交互,互联网因此汇聚了大规模的数据,并极大促进了数据要素的价值传导。作为大数据应用落地成型最早的行业,互联网企业深耕于如何将大数据资源转化为商业价值,在大数据的助推下进行商业模式的创新及业务的延伸,提升用户体验,进行精细化运营,提高网络营销效率。 以精准营销为典型代表的互联网大数据应用正有力推动着企业升级 思维,创新模式,以数据驱动重构商业形态。
2020年国务院政府工作报告中提出要“全面推进‘互联网+’”,打造数字经济新优势,互联网与大数据融合应用的能效将得到进一步发挥。“十四五”期间,我国互联网大数据呈现出如下的发展趋势:一是互联网大数据的规模将迅速扩大,维度更加丰富,二是技术的不断发展将推动互联网数据加速流通
在全球数字化转型的热潮之中,金融行业一马当先。金融机构具有庞大的客户群体,企业级数据仓库存储了覆盖客户、账户、产品、交易等大量的结构化数据,以及海量的语音、图像、视频等非结构化数据。这些数据背后都蕴藏了诸如客户偏好、社会关系、消费习惯等丰富全面的信息资源,成为金融行业数据应用的重要基础。
随着金融业务与大数据技术的深度融合,数据价值不断被发现,有效促进了业务效率的提升、金融风险的防范、金融机构商业模式的创新以及金融科技模式下的市场监管。目前,金融大数据已在交易欺诈识别、精准营销、黑产防范、信贷风险评估、供应链金融、股市行情预测等多领域的具体业务中得到广泛应用。大数据的应用分析能力,正在成为金融机构未来发展的核心竞争要素。
毋庸置疑,金融大数据拥有广阔的发展前景,然而金融大数据应用也面临着数据质量不高、合规和安全风险严峻等一系列制约因素。“十四五”期间,我国金融大数据将呈现如下的发展趋势:一是跨机构数据融合需求更加强烈。二是数据安全与合规管理更加重要。
关于数据治理的概念界定,一般有广义和狭义之分。狭义的数据治理主要是指对数据进行治理的技术与活动,是组织内部对数据的处置与应用进行规范化的过程;从广义的角度,我们认为数据治理是企业、政府、社会、市场等多参与主体,通过技术、制度、人员、法律等多种方式,实现提升数据质量与应用价值、促进数据资源整合与流通共享、保障数据安全等目标的一整套行为体系。在数据治理的实施过程中,组织内部的数据管理,组织间社会化的数据流通和覆盖数据全生命周期的安全保障是三个关键议题。
不同行业的数据资产管理实践模式有所差异,金融行业普遍“管理制度先行”,联网企业通常“实践探索先行”。不同行业的数据资产管理综合能力差距明显,金融、电信、互联网等行业的数据资产管理综合能力多处于稳健级和量化管理级,其它行业多数仍处于初始级和受管理级。数据资产管理能力划分如下:
金融、电信、互联网行业的数据资产管理能力优势集中于数据战略、数据治理、数据架构和数据生存周期方面。其它行业数据资产管理能力不足的主要原因包括信息化基础薄弱、数据管理投入人员和专业水平不足、数据资产管理驱动力受限等。
以工业为例,在信息化基础方面,相较于头部行业成熟的大数据平台和正在建立的数据基础设施,工业企业依然停留在ERP、CRM、SCM的管理软件阶段,使得企业级数据采集、存储和分析的成本较高,目前41%的工业企业仍然使用手工或文档方式进行数据管理11;在数据管理投入人员和专业水平方面,将近一半的工业企业在数据管理环节投入的人数为5人以下,未建立专业的数据管理团队;在数据资产管理驱动力方面,数据多用于监控生产运营和设备故障,数据应用场景狭窄,缺少数据资产带动业务发展的强驱动力。
一方面,多地颁发的政府数据管理办法明确了数据权责清单,另一方面,各地加强了对数据质量、数据标准、数据目录、元数据、数据采集、数据审计和数据安全等方面的要求
作为重要的生产要素,在提升组织内部数据管理能力的基础之上,
政府与企业之间、企业与企业之间自由有序的数据流通与共享亦是数
据要素价值充分释放的关键。
一方面,各地政府数据开放共享的制度体系逐步完善,另一方面,各地政府数据开放共享的落地实施进展加快
要实现政府、企业等组织外部社会化的、自由有序的数据交易与流通需要建立规范有序的交易市场来提供健康发展的土壤。
但几年时间过去,各家交易所的运营情况大多不尽如人意,数据交易的成交量远低于预期设想,甚至很多已经陷入搁置、停运状态,数据交易产业仍处在小规模探索阶段。究其原因,主要在于数据交易所的定位和模式未明、数据交易配套的法律痼疾未祛。自2019年年底以来,各地重新布局数据交易产业的脚步加快。
作为生产要素,数据的需求与应用日益广泛,数据要素价值的释放路径更加多元,但无论是组织内部的数据应用还是组织间的数据流通,数据面临的安全风险也随着其价值的逐步凸显而更加突出。一方面,数据应用的复杂性和数据分析挖掘的多样性增加了数据权属管理和抵御安全攻击的难度;另一方面,越来越多的跨组织间数据流通进一步加速了数据被盗用、误用、滥用的安全风险。近年来,数据安全事件的层出不穷使得数据安全治理也成为各界无法忽视的焦点问题。
趋势是,1. 数据安全标准制度体系逐步构建,2. 企业数据安全治理实践逐步深入。
(一)强化个人权益,个人信息保护立法加快
(二)坚持多边合作,数据跨境流动立法加强
(三)明确权利属性,数据权属立法探索初现
在《中共中央关于制定国民经济和社会发展第十四个五年规划和二〇三五年远景目标的建议》中,明确提出要建立数据资源产权、交易流通、跨境传输和安全保护等基础制度和标准规范,推动数据资源开发利用,扩大基础公共信息数据有序开放,建设国家数据统一共享开放平台,保障国家数据安全,加强个人信息保护等。这对我国大数据的发展提出了更高、更深刻的要求。
作为生产要素,数据在国民经济运行中变得越来越重要,数据对经济发展、社会生活和国家治理已经在产生着根本性、全局性、革命性的影响。还有一些需要突破的地方:一是进一步推动技术向更加贴近应用需求的方向发展,二是进一步提升数据应用的智能化、平民化,三是进一步构建更加完善的数据治理体系,四是进一步加强数据法律制度体系建设
全球大数据战略布局持续深化当前,数据正在成为重组全球要素资源、重塑全球经济结构、改变全球竞争格局的关键力量。美英与欧盟稳步推进各自的数据战略,聚焦数据价值释放。2021 年是我国‚十四五‛开局之年,这一年,国家‚十四五‛规划明确提出要‚激活数据要素潜能‛,并将大数据视为已融入经济社会发展各领域的重要应用。
国外大数据战略稳步推进,美国:强化机构协同,深挖数据资源价值,英国:细化国家数据战略,强调数据应用,欧盟:稳步执行欧盟数据战略,打造单一数据市场,国际组织:重视互联互通,构建和谐的国际数据生态。
注:2020年4月9日,中共中央、国务院发布《关于构建更加完善的要素市场化配臵体制机制的意见》,将‚数据‛与土地、劳动力、资本、技术并称为五种要素。
2021年3月,中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要‛(以下简称‚十四五‛规划)正式发布。‚大数据‛一词在规划稿中出现了十四次,而‚数据‛一词则出现了六十余次。相对于五年前‚十三五‛规划中专门用一章‚实施国家大数据战略‛集中描述大数据发展,‚十四五‛规划中对于大数据发展的着墨已经融入到了各篇章之中。这在一定程度上表明,大数据已经不仅是一个新兴的技术产业,而是正在成为融入经济社会发展各领域的新理念、新资源和新动力。‚十四五‛规划对于大数据发展的布局,可以概括为突出数据在数字经济中的关键作用、加强数据要素市场规则建设、重视大数据相关基础设施建设。
(一)基础法律:搭建数据合规基本框架
《数据安全法》与《个人信息保护法》
(二)部委发力:细化落实基础合规要求
(三)地方立法:着力创新攻坚合规难题
大数据技术的内涵伴随着传统信息技术和数据应用的发展不断演进,而大数据技术体系的核心始终是面向海量数据的存储、计算、处理等基础技术。支撑数据存储计算的软件系统是起源于20世纪60年代的数据库;70年代出现的关系型数据库成为了沿用至今的数据存储计算系统;80年代末,专门面向数据分析决策的数据仓库理论被提出,成为接下来很长一段时间中发掘数据价值的主要工具和手段。2000年前后,在互联网高速发展的时代背景下,数据量急剧增大、数据类型愈加复杂、数据处理速度需求不断提高,大数据时代全面到来。由此,面向非结构化数据的NoSQL数据库兴起,突破单机存储计算能力瓶颈的分布式存储计算架构成为主流,基于Google‚三驾马车‛理论产生的 Apache Hadoop 成为大数据技术的代名词,MPP(Massively Parallel Processing)架构也在此时开始流行。2010年前后,移动互联网时代的到来进一步推动了大数据的发展,对于实时交互性的进一步需求使得以Storm、Flink为代表的流处理框架应运而生,对于庞杂的不同类型的数据进行统一存储使用的需求催生了数据湖的概念。同时,随着云计算技术的深入应用,带来资源集约化和应用灵活性优势的云原生概念产生,大数据技术完成了从私有化部署到云上部署再向云原生的转变。
数据平台技术演变:
2020 年开始,随着各行业数字化转型的推进、数据安全事件的频发,大数据技术的发展重点也从单一注重效率提升,演变为‚效率提升、赋能业务、加强安全、促进流通‛四者并重。
2006年,云计算开始发展后,随着各单位上云进程的加速,传统大数据平台和数据库逐渐从私有部署转化为云上部署,但变化主要集中在部署模式的不同,并未充分利用云计算理论为大数据技术本身赋能。而随着云原生概念的兴起,大数据技术产品逐步迭代升级,云原生大数据技术产品开始成为产业变革的浪潮。
近一年发布的云原生大数据技术产品一览:
利用云原生,大数据技术产品从三个方面实现了效率提升:一是整体架构为实现弹性伸缩进一步解耦和改造,二是应用接口函数化,三是支持多云部署
随着数字化转型的推进,各行业在完成数据基础设施建设后,为业务赋能的数据开发工作成为重点。传统数据开发工作大多通过直接调用种类繁多的大数据开源技术组件来进行,通常需要具备专业知识的技术人员完成,业务人员很难快速上手,然而伴随业务对于数据开发的要求不断提高,不同部门间的高效协同成为完善数据开发工作、提高业务效率的关键。因此,数据开发工作逐渐从技术部门向各业务部门延伸,数据开发的门槛也亟需降低以使数据与各业务加速融合。2021年,头部科技企业纷纷投入力量,研发并推出数据开发平台用于解决数据开发门槛高的痛点,助力更多行业享受数字化转型的红利。
数据开发平台是利用低代码思想,通过抽象大数据开发过程中常用的技术和流程,屏蔽数据开发任务的技术细节以及提供统一的集成开发界面来降低开发门槛。与此同时,开发平台将统一对各数据开发项目进行管理和资源整合,不仅可以提升数据开发流程的透明度和规范性,而且可以增强各组件在项目间的可复用性。根据统计,数据开发平台能够将金融、零售、工业、医疗等不同场景下的开发组件复用率增至 85%,将大大降低数据的开发成本。
随着物联网、5G、云计算的发展,数据生命周期涉及的节点数量变多、数据形式变新,信息泄露事件频发,传统安全防护的边界已被颠覆,各行业都需要延长针对数据各环节的防御纵深,并建立以数据为中心的新型安全防护体系。零信任理念旨在打破网络边界进行细颗粒度的访问控制,是目前针对数据安全体系的前沿探索。
传统大数据技术对于数据在机构间的流通场景缺乏支撑,导致对外的数据融合应用与对内的数据安全保护总是难以兼顾。当侧重数据应用时,黑市交易猖獗、个人信息外泄的情况严重;而当侧重数据保护时,可流通的数据范围和数据对象受到限制,数据的价值难以发挥。近年来,隐私计算被认为是最有希望解决跨机构间数据有序流通问题的一类关键技术。
从技术原理讲,隐私计算融合了密码学、人工智能、计算机工程等众多学科。从20世纪70年代发展至今,隐私计算已逐渐形成了以多方安全计算、联邦学习、可信执行环境为代表,混淆电路、秘密分享、不经意传输等作为底层密码学技术,同态加密、差分隐私等作为辅助技术的相对成熟的技术体系。
多部委接连发布行业数据资产管理指导文件,各行业结合自身特色持续推动数据资产管理工作。
为指导企业全面建设数据管理能力,工业和信息化部组织协调国家信标委研究制定和发布了《数据管理能力成熟度评估模型》(简称‚DCMM‛)
DCMM为企业全面开展数据资产管理提供了参考框架,随着数据供给端的数据规模、数据来源、数据种类快速增长,数据需求端的数据规范性、数据安全性、服务时效性要求日益提升,数据资产管理主体面临数据质量难以持续提升、数据资产管理成本不断攀升、数据服务无法及时满足等新问题。因此,各方聚焦于如何以更低的成本、更高的效率来解决这些问题,并随之提出了实践方案,其中最具代表性的是由 DevOps(Development Operations,开发运维一体化)衍生出的 DataOps(Data Operations)。DataOps理念图:
DataOps倡导采用自动化、智能化的技术工具,通过数据开发治理一体化、敏捷数据开发、自助式数据服务等活动,满足不同数据资产管理角色(例如数据管理者、数据开发者、数据消费者)的需求,提升协作效率,持续改进数据质量,降低数据资产管理成本,加速数据价值释放。
DataOps这一理念于2014年被提出,在2018年被 Gartner首次纳入数据管理技术成熟度曲线中,并保持增长态势,到2021年DataOps已由技术萌芽期(Innovation Trigger)爬坡接近至顶峰期(Peak of Inflated Expectations)。相较于 DCMM 而言,DataOps更加强调数据管理的全面性和高效性,对数据资产管理水平提出了更高要求,DataOps 在国内仍处于探索阶段。
面向数据管理者的需求,DataOps提倡的数据开发治理一体化强调将数据管理活动持续贯穿于数据生产端到数据消费端的各个环节,面向数据开发者的需求,DataOps提倡的敏捷数据开发运维技术通过低代码、可视化、自动化等技术手段消除流程障碍、缩短开发周期,面向数据消费者的需求,DataOps提倡利用自助式数据服务以降低数据使用门槛和沟通成本,让业务人员能直接参与数据分析过程。
随着理论研究和行业实践的不断深入发展,数据资产管理的目标正在由数据质量的提升逐步转向数据价值的释放,数据资产确权、估值等‚老大难‛问题也出现了落地方案,数据资产管理迎来新的发展阶段。
数据资产估值是价值运营的关键基石,企业数据资产管理实践为资产估值和定价带来新方法、新机遇,数据价值运营已经迈出了实质性的步伐。在不同需求场景的催化下,企业正以数据价值释放为导向,构建全面的数据资产运营模式,为企业的数据价值运营提供实践参考。
数据要素市场化配臵的关键在于通过数据流通,使数据资源流向市场最需要的领域和方向,在生产经营活动中产生效益,以释放数据要素的价值。数据流通是指以数据作为流通对象,按照一定规则从数据提供方传递到数据需求方的过程,即数据资源先后被不同主体获取、掌握或利用的过程。
模式、技术和规则方面出现的新探索:
现阶段,政府数据开放、政企间与企业间的数据共享和数据交易是我国数据流通的最主要模式,特别是数据交易,持续受到各界关注,各地数据交易机构建设如火如荼。值得注意的是,已有的数据开放、共享和交易大多表现为数据控制者直接参与数据资源的交付,近两年,数据信托等新型模式通过数据委托运营的方式为数据流通提供了新的思路。
现阶段,我国数据交易以点对点模式为主,交易规模已相当可观,仅商业银行每年的数据采购金额就超过百亿元。点对点模式虽然能满足企业定向采购数据的需求,但由于信息不对称,很难形成供需关系指导下的市场调节机制,无法实现大规模的数据要素市场化配臵。
借鉴传统要素市场化的发展经验,自 2014 年开始,全国各地开
始建设数据交易机构,但是,经过7年多时间的探索,各地数据交易机构运营发展始终未达到预期效果。一是从机构数量来看,绝大多数交易机构已停止运营或转变经营方向,持续运营的数据交易机构非常有限。二是从业务模式来看,落地业务基本局限于中介撮合,各机构成立之初设想的确权估值、交付清算、数据资产管理和金融服务等一系列增 值服务并未能落地。三是从经营业绩来看,各交易机构整体上数据成交量低迷,市场能力不足。
“数据要素市场化配置”提出后,各地继续将设立数据交易机构作为促进数据要素流通的主要抓手,再次掀起建设热潮。在新一轮建设热潮之中,各地从创新业务模式、升级技术应用、强化数据供给等角度进行着数据交易 2.0 时代的探索。
直接交付的流通模式下,数据控制者对于数据管理和运营能力的不足,导致当前仍有大量数据价值未被挖掘,未能形成充分的数据资源供给与数据流通需求。同时,数据权属界定、收益分配等基础问题始终难以明确,也使得数据供需方在参与流通时顾虑重重。为解决以上困境,国内外相关机构开始探索数据委托运营的新型流通模式。
数据信托为机构数据资产变现提供新思路。数据信托是指数据供方以数据作为信托财产设立信托,由信托机构按照委托人意愿,自行或委托第三方运营机构对信托财产进行专业管理和收益分配的数据流通模式。
“个人信息银行”探索个人数据集中托管运营。日本从2017年开始探索个人信息银行(个人信息使用信用银行)。虽然称之为银行,但业务模式属于信托,即公民将个人数据托管给经过认证的运营商,由运营商集中运营以实现个人数据资产的交易和变现。
公共数据授权运营加速政府数据价值释放。十四五‛规划对政府数据资源的流通提出了新的要求,指出要‚开展政府数据授权运营试点,鼓励第三方深化对公共数据的挖掘利用‛,即通过一定方式授权给特定主体进行市场化运营,进一步带动市场活力。
从技术方案上看,数据流通的形态可以划分为三个阶段。
最原始的数据流通形态是由提供方将原始数据或简单预处理后的数据集直接提供给需求方,大多通过中介或统一平台的方式进行,这类模式下,数据很容易被二次传播和利用,数据泄漏和数据价值减损的风险很高,数据提供方很难保障自己的权益。
长期以来最为主流的数据流通形态是通过API接口进行的,提供方开始由直接交付原始数据转变为提供数据查询或处理分析的结果,这种控制输出内容和调用次数与时限的方式在一定程度上保护了原始数据的安全和隐私,但仍无法避免调用结果被获取方缓存后进行二次传播和加工利用。即使在实践中,数据供需方大多会在合作协议中增加不可缓存的条款,但缺少独立权威的监控与审计,数据提供方的权益仍然无法得到完全的保障。
近两年,隐私计算等数据流通技术逐渐兴起,为数据流通提供了新方案。正如前文提到,隐私计算帮助数据流通的各参与方实现在避免直接暴露原始数据的基础上充分挖掘数据价值。这种‚数据可用不可见‛的流通方式在保护数据安全的同时也在一定程度上回避了数据的权属争议,正在促进数据流通的形态从传统的单向传递逐步向多方数据交互融合过渡。
除此之外,数据脱敏、区块链等其他技术在应对流通合规、强化信任等方面也有着重要作用。数据脱敏可以在数据流通的前臵环节降低参与主体的安全与合规风险,当数据内容较敏感或数据存在授权瑕疵时,数据脱敏是实现数据匿名化处理的有效途径。区块链可以实现数据流通全过程的有效记录且不可篡改,对于确保数据流通参与方在各环节的授权与行为验证可以提供重要的信任保障。现阶段,隐私计算与数据脱敏、区块链的协调配合、融合应用已经成为了突破数据流通障碍的重要方向。
如何正确处理原始生产者、采集者、控制者及处理者等角色在数据流通过程中的权责划分是鼓励相关主体有序参与数据流通的关键。现阶段,各界正在积极探索在遵从已有法律要求的基础上,通过合同约定、书面凭证等方式进行数据流通主体的权责划分。
现行法律为数据流通参与主体的权责划分提出原则要求。数据交易合同示范文本探索以合同约定权责划分的行业共识。公共数据资产凭证为公共数据流通的权责划分提供政府背书。
数据泄露、数据滥用等安全风险是威胁数据要素市场稳步前进的拦路虎。
(一)国内数据安全监管落地加快
(二)企业数据安全治理初见成效
(三)数据安全闭环体系加速建设
数据安全治理的概念一经提出,即受到全行业的广泛关注。作为推动组织数据安全合规建设、数据安全风险防范、数据业务健康发展的重要抓手,数据安全治理不再局限于技术或管理层面,而是需要围绕数据全生命周期安全,推动组织架构、制度流程、技术工具、人才培养协同发展的体系化建设,实现从规划、实施、反馈到提升的闭环。
利用好数据要素是驱动数字经济创新发展的重要抓手。一是释放数据价值将成为全球竞争战略的重要组成部分。二是进一步发挥大数据技术在数据价值挖掘方面的效用。三是数据治理制度体系与技术工具双轨并进。四是新数据流通业态与政策制度协同创新。五是数据合规法律体系将进一步完善成熟。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。