赞
踩
随着“十四五”规划推行,数据要素概念与意识全面铺开,国家、政府机构、企业数据安全意识愈发强烈。2021年9月1号,《数据安全法》正式生效,数据资产安全进入“有法可依”时代。
数据战略上升为国家战略,数据资产成为国家各行各业的核心资产。在数字化时代,数据分类分级成为数据资产管理的重要组成部分。
大数据时代,数据呈现多源异构的特点,价值各不相同,企业应根据数据的重要性、价值指数等方面予以区分,便于采取不同的数据保护措施,防止数据泄露。因此,数据分类分级管理是数据安全保护中的重要环节之一。
根据数据的属性及特征,将其按一定原则和方法进行区分和归类,并建立起一定的分类体系和排列顺序的过程。数据分类一定是以各种各样的方式并存的,不存在唯一的分类方式,分类方法的采用因管理主体、管理目的、分类属性或维度的不同而不同。
1.1 业务开展使用数据的视角– 看到的是数据的业务特征,比如某企业内有研发、制造、销售、人力资源等部门,大量数据的产生天然就具备业务相关的特征,很自然的数据分类方式就是按业务分类:研发数据等等
1.2 IT部门/数据管理部门视角– 关注的不是业务分工,而是数据自身在IT系统里如何承载、管理、呈现,所以有IT/数据管理部门将数据分类为结构化、非结构化数据,主数据、交易数据、元数据等。
数据分级是指按照公共数据遭到破坏(包括攻击、泄露、篡改、非法使用等)后对受侵害各体合法权益(国家安全、社会秩序、公共利益以及公民、法人和其他组织)的危害程度,对公共数据进行定级,为数据全生命周期管理的安全策略制定提供支撑 。
数据分类分级按照数据分类管理、分级保护的思路,依据以下原则进行划分:
1.合法合规原则: 数据分类分级应遵循有关法律法规及部门规定要求,优先对国家或行业有专门管理要求的数据进行识别和管理,满足相应的数据安全管理要求。
2.分类多维原则: 数据分类具有多种视角和维度,可从便于数据管理和使用角度,考虑国家、行业、组织等多个视角的数据分类。
3.分级明确原则: 数据分级的目的是为了保护数据安全,数据分级的各级别应界限明确,不同级别的数据应采取不同的保护措施。每个数据项原则上只属于一个类别、一个级别。
4.就高从严原则: 数据分级时采用就高不就低的原则进行定级,例如数据集包含多个级别的数据项,按照数据项的最高级别对数据集进行定级。
5.动态调整原则: 数据的类别级别可能因时间变化、政策变化、安全事件发生、不同业务场景的敏感性变化或相关行业规则不同而发生改变,因此需要对数据分类分级进行定期审核并及时调整。
来源:全国信息安全标准化技术委员会秘书处
数据分类具有多种视角和维度,其主要目的是便于数据管理和使用。数据处理者进行数据分类时,应优先遵循国家、行业的数据分类要求,如果所在行业没有行业数据分类规则,也可从组织经营维度进行数据分类。常见的数据分类维度,包括但不限于:
数据分类 | 类别定义 | 示例 |
---|---|---|
公共数据 | 公共管理和服务机构在依法履行 公共管理和服务职责过程中收 集、产生的数据,及其他组织和 个人在提供公共服务中收集、产 生的涉及公共利益的数据 | 如政务数据,及提供供水、供电、 供气、供热、公共交通、养老、教育、医疗健康、邮政等公共服务中 涉及公共利益的数据等 |
个人信息 | 以电子或者其他方式记录的与已 识别或者可识别的自然人有关的 各种信息,不包括匿名化处理后 的信息 | 如个人身份信息、个人生物识别 信息、个人财产信息、个人通信信 息、个人位置信息、个人健康生理 信息等 |
法人数据 | 组织在生产经营和内部管理过程 中,收集和产生的数据 | 如业务数据、经营管理数据、系统 运行和安全数据等 |
MECE是(Mutually Exclusive Collectively Exhaustive)的缩写,指的是“相互独立,完全穷尽”的分类原则。
业务指标梳理(MECE)范例
第一,按照业务线一通到底,基于最底层业务进行梳理,而不是分层梳理。(以下为主,上下结合)
第二,按照行业一流构建指标全集,然后根据具体企业情况进行删减,而不是按照企业现状进行梳理。(全指标、做减法)
比较适用于从业务应用维度进行划分,建议采用以业务为主的1+N+1数据主题域划分方法
各级主题命名应能准确表达主题的含义和功能。业务主题域命名一般采用动宾结构的短语(动词+名词,或名词+动词),为动词化的名词,动词为业务的概括说明,名词为过程或对象。同时主题命名应遵循以下规范:
如按存储方式、数据稀疏程度、处理时效性,数据交换方式;
如业务数据产生来源、业务归属、流通类型、行业领域、数据质量;
从国家数据安全角度出发,数据分级基本框架分为一般数据、重要数据、核心数据三个级别。数据处理者可在基本框架定级的基础上,结合行业数据分类分级规则或组织生产经营需求,考虑影响对象、影响程度两个要素进行分级。各级别与影响对象、影响程度对应关系如下表所示:
来源:全国信息安全标准化技术委员会秘书处
下面列举了几种行业分级标准,影响程度从低到高:
对数据进行盘点、梳理与分类,形成统一的数据清单,并进行数据安全定级合规性相关准备工作。
根据国家相关标准、行业相关标准、结合具体业务特性制定金融业数据安全分类分级标准或规范执行。该阶段需要建立敏感数据指引、敏感数据分类分级指引,同时要明确需遵循的法律法规。
利用技术工具识别是否存在法律法规或主管监管部门有专门管理要求的数据类别,并对识别的数据类别进行区分标识;从行业领域维度,确定待分类数据的数据处理活动涉及的领域。
为数据定级时,主要考虑数据的安全属性(保密性、完整性、可用性)遭到破坏后产生的影响,又分为影响对象、影响范围、影响程度三个因素。影响对象如行业、机构、用户;影响范围如单个机构、多个机构、多个行业;影响程度如严重、中等、轻微、无。
综合以上因素,形成数据级别表,供各类数据定级时参照。
最低安全级别参考 | 影响对象 | 影响程度 | 数据一般特征 |
---|---|---|---|
5 | 国家安全 | 严重损害/一般损害/轻微损害 | • 数据安全性遭到破坏后,对国家安全造成影响,或对公众权益造成严重影响。 |
5 | 公众权益 | 严重损害 | • 重要数据,通常主要用于金融业大型或特大型机构、金融交易过程中重要核心节点类机构 的关键业务使用,一般针对特定人员公开,且仅为必须知悉的对象访问或使用。 |
4 | 公众权益 | 一般损害 | • 数据通常主要用于金融业大型或特大型机构、金融交易过程中重要核心节点类机构的重要 业务使用,一般针对特定人员公开,且仅为必须知悉的对象访冋或使用。 |
4 | 个人隐私 | 严重损害 | • 个人金融信息中的C3类信息. |
4 | 企业合法权益 | 严重损害 | • 数据安全性遭到破坏后,对公众权益造成一般影响,或对个人隐私或企业合法权益造成严 重影响,但不影响国家安全。 |
3 | 公众权益 | 轻微损害 | • 数据的安全性遭到破坏后,对公众权益造成轻微影响,或对个人隐私或企业合法权益造成一般影响,但不影响国家安全。 |
3 | 个人隐私 | 一般损害 | • 个人金融信息中的C2类信息。 |
3 | 企业合法权益 | 一般损害 | • 数据用于金融业机构关键或重要业务使用,一般针对特定人员公开,且仅为必须知悉的对 象访问或使用。 |
2 | 个人隐私 | 轻微损害 | • 个人金融信息中的C1类信息。 |
2 | 企业合法权益 | 轻微损害 | • 数据用于金融业机构一般业务使用,一般针对受限对象公开,通常为内部管理且不宜广泛 公开的数据。 • 数据的安全性遭到破坏后,对个人隐私或企业合法权益造成轻微影响,但不影响国家安全、 公众权益。 |
1 | 国家安全 | 无损害 | • 数据的安全性遭到破坏后,可能对个人隐私或企业合法权益不造成影响,或仅造成微弱影 响但不影响国家安全、公众权益。 |
1 | 公众权益 | 无损害 | • 数据一般可被公开或可被公众获知、使用。 |
1 | 个人隐私 | 无损害 | • 个人金融信息主体主动公开的信息。 |
1 | 企业合法权益 | 无损害 | • 数据的安全性遭到破坏后,可能对个人隐私或企业合法权益不造成影响,或仅造成微弱影 响但不影响国家安全、公众权益。 |
国家核心数据、重要数据、个人信息、公共数据等特定数据的最 低安全级别,可设置如下:
a)国家核心数据的级别不低于 5 级;
b)重要数据的级别不低于 4 级;
c)敏感个人信息不低于 4 级,一般个人信息不低于 3 级,组织内 部员工个人信息不低于 2 级,个人标签信息不低于 2 级;
d)有条件开放的公共数据级别不低于 2 级,禁止开放的公共数据 不低于 4 级。
审核数据安全分类分级评定过程和结果,必要时重复第三步及其后工作,直至分类分级的划定与本机构数据安全保护目标一致。
数据分类分级的准确度和效率取决于工具的识别能力是否强大,即“工具是不是真的能够看到数据、看懂数据”。
数据分类分类大多数安全工具都是基于模式匹配和相对敏感级别来执行的,然后将该结果记录在存储库中或作为文档上的标签或标签,敏感数据识别策略是数据识别的一个核心能力点。
市面上很多工具大多会选择从具备明显数据特征的数据切入。如身份证号码有固定的编码,手机号码有固定的位数格式,姓名、民族等都具有易于定义和区分的含义,识别策略较容易设计。
客户特定且不断增长的业务数据,在数据分类分级的框架下往往不具备明显的数据特征,甚至还可能存在歧义。比如一个姓名,他可能是企业员工,也可能是企业用户,在不同的业务场景和数据类别中,其重要程度和敏感度是不一样的。例如,数字35可以是门牌号、温度——实际上是任何东西,当数据分类分级产品仅限于模式匹配以进行发现和分类时,几乎无法发现某个数据特征不明显的业务数据是什么。
①基于规则的自动识别,比如:正则表达式、关键字、算法、数据字典、包含、等于、字段名等规则。
通过用户自定义规则,自动识别敏感数据,使用自带的规则或自定义规则,对其结构化表或者非结构化文件进行整体扫描。
如何发现敏感数据字段?
通过定期全库扫描,识别敏感字段(周期触发)。如果新增或修改表和字段,增量扫描识别出敏感字段,需要监听数据库对表或字段的操作,来指定表或字段进行敏感识别扫描,需结合数据库代理服务。
日常的一些敏感数据识别
银行卡号、证件号、手机号,有明确的规则,可以根据正则表达式和算法匹配;姓名、特殊字段,没有明确信息,可能是任意字符串,可以通过配置关键字来进行匹配;营业执照、地址、图片等,没有明确规则,可以通过自然语言算法来识别,使用开源算法库。
②字段名匹配
针对已经做过元数据梳理或者人工分类分级的客户,可以把敏感数据的字段名导出来,在数据分类分级工具中输入敏感数据在数据库中对应表字段的名称,可以直接100%匹配到敏感数据,这种方式可以避免重复工作。
③人工辅助的数据资产识别
技术工具识别出来的结果再精准也不如人工,所以在敏感数据识别环节要预留人工二次确认的环节,提高准确性。
理想化的数据分类分级技术工具应具备数据分类的语义能力——判断数据的实际情况和业务场景,而不是依赖于预配置的标识符。
安全厂商正在努力摆脱算法模式匹配,并正在添加基于人工智能/机器学习的功能,使技术工具的语义功能可以识别出“真正”的数据。
①基于 NLP 自然语言技术的自动识别
目前业内智能化打标一般指的是针对敏感数据进行打标。借助正则表达式、关键词、文档指纹、NLP、OCR、机器学习等先进AI技术提取敏感数据特征,建立相应敏感识别规则,然后统一录入规则引擎。
②机器学习
基于相似度算法
基于相似度算法可准确检测以文档形式存储的非结构化数据,例如 Word 与 PowerPoint 文件、PDF 文档、财务、并购文档,以及其他敏感或专有信息。
首先,手工或者通过感知算法提取文档指纹特征,以检测原始文档的已检索部分、草稿或不同版本的受保护文档。第二步进行敏感文件的学习和训练,获得敏感内容的文档时,采用语义分析的技术进行分词,提出来需要学习和训练的敏感信息文档的指纹模型,然后利用同样的方法对被测的文档或内容进行指纹抓取,将得到的指纹与训练的指纹进行比对,根据预设的相似度阈值去确认被检测文档是否为敏感信息文档。
基于非监督学习算法
基于无监督学习算法,人工无需打标签,进行特征设计与提取。
比如敏感图像场景提取目标关键点、文档数据根据语义提取特征向量。首先选取 K-means、DBSCAN 等聚类算法其中之一作为训练算法,然后将敏感数据待分类的数目赋为聚类“簇”的个数,将输入的样本数据进行聚类,聚类完成形成不同“簇”的数据集合,人工对这些“簇”的部分样本进行分析并确定相应“簇”的类别,比如敏感型、非敏感型。
基于监督学习算法
基于监督学习算法需收集一定数量的训练数据,同时对数据进行人工打标签,比如敏感 / 非敏感标签(二分类场景)。然后选择相应的监督学习算法,比如支持向量、决策树、随机森林、神经网络等,再对训练数据进行模型训练与调参。训练完成,将输出的模型应用在新的数据进行智能识别与预测,自动化输出数据类型–敏感 / 非敏感数据。
目前有公司宣称利用机器学习和聚类算法实现规模数据分类,以自动化发现个人数据以及其他敏感数据,但算法的效率、识别精度以及可扩展性仍然是一系列有挑战性的关键问题。
③深度学习
深度学习是机器学习的一大分支,在自然语言处理中需应用深度学习模型,如卷积神经网络、循环神经网络等,通过对生成的词向量进行学习,以完成自然语言分类、理解的过程。
与传统的机器学习相比,基于深度学习的自然语言处理技术具备以下优势:
(1)深度学习能够以词或句子的向量化为前提,不断学习语言特征,掌握更高层次、更加抽象的语言特征,满足大量特征工程的自然语言处理要求。
(2)深度学习无需专家人工定义训练集,可通过神经网络自动学习高层次特征
简单例举机器学习中三种敏感数据识别的算法模型,具体技术细节不展开讨论。通过机器学习算法对数据进行多维度元数据特征向量自动提取,对相似字段的数据字段进行聚合归类。数据分类分级工具在有足够数据样板的条件下是可以支持机器学习的,通过各种AI算法自动完成敏感数据识别、分类分级,缩减了所投入的人力成本,敏感数据识别规则的沉淀随着分类分级工作的深入开展,边际成本递减。
支持数据源手动添加、自动发现、API 对接三种模式。
手工添加数据库,配置数据库的详细连接信息。
API 通用接口对接其他数据平台的元数据。
自动发现在通过IP地址区间和端口扫描自动化发现网络环境中存在的数据库。
数据自动分类分级: 对识别到的数据资产结合内置识别模型和配置的分类分级规则进行分析,自动完成敏感数据识别和数据分类分级。
分类分级结果展示: 完成分类分级自动打标后,需展示本次自动识别的数据分类分级结果清单以供查看和批准,并支持手工修改。
利用数据处理程序对采集的数据进行清洗、解析、处理,通过数据识别和分类分级引擎,结合数据识别策略、分类分级策略、数据识别和分类模型对处理后的数据进行匹配识别,准确定位数据中包含的敏感数据或重要数据,对其进行识别标记和分类分级标记。
利用数据分析引擎,对数据源、采集数据、识别结果等内容进行全面分析,形成企业数据资产地图、多维统计分析视图、资产分析报告、资产清单等,为企业进一步的数据价值挖掘、数据安全防护体系建设完成数据准备工作。
在所有流动的数据资产可视基础上,发现敏感数据并进行分类分级,做到所有流动的数据已知,所有敏感数据已知。知道敏感数据资产的流转路径,涉及业务部门、时间、地点等信息。基于已知的敏感数据后续制定各种场景化的预警和告警,从而有效保护敏感数据。
能够展示数据访问热度、敏感数据分布等统计信息,对数据资产的访问源头、访问频率、访问时间、访问流量等敏感数据访问情况进行监测。这项功能涉及流量分析技术。
对数据分类分级之后进行共享管控,严格按照安全级别进安全管理,对高安全级别数据需要经过数据脱敏处理之后开放,对数据共享全链路进行风险监控;另一方面严格控制数据访问权限,设置数据消费(使用)账号进行权限区分。
阿里云数据安全中心支持识别的行业模版(金融分类分级模板、阿里巴巴及蚂蚁集团数据安全分类分级模板、能源分类分级模板、车联网行业分类分级模板)
华为云-数据安全中心 DSC
阿里云-数据安全中心
腾讯云-数据安全中心
红途科技-数据分类分级
启明星辰-迈开行业资源数据安全治理首步:分类分级
锐服信科技-数据分类分级系统
中孚信息-数据分类分级管理系统
数据分类分级-昂楷科技
好大夫数据安全分类分级实践探索
【金猿产品展】美创科技暗数据发现与分类分级系统——数据透明化、有序化、价值最大化、流程自动化系统
方向 | 标准或指南 | 发布部门 | 发布时间 |
---|---|---|---|
政务 | 《政务信息资源目录 体系 第 4 部分:政务信息资源分类》GB/T 21063.4-2007 | 中国国家标准化管理委员会 | 2007年09月 |
《政府数据数据分类分级指南》DB 52/T1123—2016 | 贵州省 | 2016年9月 | |
《国民经济行业分类》GB/T 4754—2017 | 国家市场监督管理总局 | 2017年10月 | |
《数字化改革 公共数据分类分级指南》DB33T 2351-2021 | 浙江省 | 2021年7月 | |
《政务数据安全分类分级指南》DB 2201/T 17-2022 | 长春市 | 2022年1月 | |
重庆市公共数据分类分级指南(试行) | 重庆市 | 2021年10月 | |
金融 | 《证券期货业数据分类分级指引》JR/T0158—2018 | 证监会 | 2018年9月 |
《金融数据安全 数据安全分级指南》JR/T 0197-2020 | 全国金融标准化技术委员会 | 2020年9月 | |
医疗 | 信息安全技术 健康医疗数据安全指南 GB/T 39725-2020 | 中国国家标准化管理委员会 | 2020年12月 |
电信 | 基础电信企业重要数据识别指南 YD/T 3867-2021 | 工业和信息化部 | 2021年5月 |
工业 | 工业数据分类分级指南(试行) | 工业和信息化部 | 2020年7月 |
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。