赞
踩
一、大数据安全概述
大数据系统中的数据的安全。
企业可以利用大数据处理和分析来自各个IT基础设施、网络设备、业务系统中的数据,从而实时感知企业当前的安全态势,使得企业迅速的有针对性的采取处理措施消灭安全隐患于萌芽阶段成为可能,这是大数据系统在安全领域中的运用,是“安全大数据”而不是“大数据安全”。
数据是值钱的。大数据安全必然最关心的也就是数据在整个系统中,从诞生到收集、清洗、存储、分析、消费、存档以及销毁这个生命周期中,其机密性、完整性和可用性不被破坏。
大数据处理和分析系统(也有人称之为大数据平台,下文统称“大数据系统”)中最重要的当然是数据,和数据共生的还有组成大数据系统的各个应用。数据在应用里诞生、流转、被消费,这些应用自身的安全性如何,在很大程度上将直接影响数据的安全性。因此,大数据安全也应该包含这些应用的安全。
光有数据和应用的大数据系统并不能真正发挥它的价值,直到大数据系统将分析处理后的高价值数据反馈给人的时候,在辅助企业做出业务甚至战略决策的时候,它的价值才被最大化。
二、大数据安全问题挑战
三、大数据安全保障框架
大数据与传统数据资产相比,具有较强的社会属性。为实现安全防护目标,需要融合安全治理、技术、标准、运维和测评来系统性地解决大数据的安全问题。从安全治理着眼,以安全技术、安全运维和安全测评为支撑,构建流程、策略、制度、测评多重保障体系。同时,需要以标准为保障,实现安全互联协同,达到多维立体的防护。
3.1 大数据安全总体技术框架
大数据的安全技术体系是支撑大数据安全管理、安全运行的技术保障。以“密码基础设施、认证基础设施、可信服务管理、密钥管理设施、安全监测预警”五大安全基础设施服务,结合大数据、人工智能和分布式计算存储能力,解决传统安全解决方案中数据离散、单点计算能力不足、信息孤岛和无法联动的问题。大数据的总体安全技术框架。
3.2 大数据安全治理
大数据的安全治理体系的目标是确保大数据“合法合规”的安全流转,保障大数据安全的情况下,让其价值最大化,来支撑企业的业务目标的实现。大数据的安全治理体系建设过程中行使数据的安全管理、运行监管和效能评估的职能。
3.3 大数据安全测评
大数据的安全测评是保证大数据安全提供服务的支撑保障,目标是验证评估所有保护大数据的安全策略、安全产品和安全技术的有效性和性能等。确保所有使用的安全防护手段都能满足大数据中主要参与者安全防护的需求。
3.4 大数据安全运维
大数据的安全运维以技术框架为支撑,主要确保大数据系统平台能安全持续稳定可靠运行, 在大数据系统运行过程中行使资源调配、系统升级、服务启停、容灾备份、性能优化、应急处置、应用部署和安全管控等职能。
四、大数据安全核心技术
大数据安全防护技术体系,基于威胁情报共享和采用大数据分析技术,实现大数据安全威胁的快速响应,集安全态势感知、监测预警、快速响应和主动防御为一体,基于数据分级分类实施不同的安全防护策略,形成协同安全防护体系。围绕以数据为核心,以安全机制为手段,以涉及数据的承载主体为目标,以数据参与者为关注点,构建大数据安全协同主动防护体系。
(1)数据是指需要防护的大数据对象,此处指大数据流转的各个阶段包括采集、传输、存储、处理、共享、使用和销毁。
(2)安全策略是指对大数据对象进行安全防护的流程、策略、配置和方法等,如根据数据的不同安全等级和防护需求,实施主动防御、访问控制、授权、隔离、过滤、加密、脱敏等。
(3)安全产品指在对大数据进行安全防护时使用的具体产品,如数据库防火墙、审计、主动防御系统、APT检测、高速密码机、数据脱敏系统、云密码资源池、数据分级分类系统等。
(4)防护主体是指需要防护的承载大数据流转过程的软硬件载体,包括服务器、网络设备、存储设备,大数据平台、应用系统等。
(5)参与者是指参与大数据流转过程中的改变大数据状态和流转过程的主体,主要包括大数据提供者、管理者、使用者和大数据平台等。
4.2 主动防御的大数据协同安全防护体系
传统的安全防护技术注重某一个阶段或者某一个点的安全防护,在大数据环境下需要构建具有主动防御能力的大数据协同安全防护体系,在总体上达到“协同联动,体系防御”的安全防御效果。
大数据协同安全防护体系必须具备威胁的自动发现、策略决策的智能分析、防御策略的全局协同、安全资源的自动控制调度以及安全执行效果的综合评估等特征。其中威胁的自动发现和防御策略的全局协同是实现具有主动防御能力大数据协同安全防护体系的基础。
大数据的安全并不仅仅是大数据平台的安全,大数据的安全应该以数据生命周期为主线,兼顾满足各个参与者的安全诉求。大数据的安全动态协同防护体系架构。
主动防御的大数据协同安全防护体系
4.3 大数据协同安全防护流程
大数据协同安全防护强调的是安全策略全局调配的协同性,安全防护手段的主动性,以威胁的自动发现和风险的智能分析为前提,采用大数据的分析技术通过安全策略的全局自动调配和防护手段的全局联动。具有主动防御能力的大数据协同安全防护流程。
五、 大数据安全防护技术体系
1.数据采集安全技术
1.1 传输安全
虚拟专用网络将隧道技术、协议封装技术、密码技术和配置管理技术结合在一起,采用安全通道技术在源端和目的端建立安全的数据通道,通过将待传输的原始数据进行加密和协议封装处理后再嵌套装入另一种协议的数据报文中,像普通数据报文一样在网络中进行传输。
1.2 SSL VPN
SSL VPN采用标准的安全套接层协议,基于X.509证书,支持多种加密算法。可以提供基于应用层的访问控制,具有数据加密、完整性检测和认证机制,而且客户端无需特定软件的安装,更加容易配置和管理,从而降低用户的总成本并增加远程用户的工作效率。
2.1.1 基于数据交换的隐私保护技术
数据变换,简单的讲就是对敏感属性进行转换,使原始数据部分失真,但是同时保持某些数据或数据属性不变的保护方法,数据失真技术通过干扰原始数据来实现隐私保护。
2.1.2 基于数据加密的隐私保护技术
采用对称或非对称加密技术在数据挖掘过程中隐藏敏感数据,多用于分布式应用环境中,如分布式数据挖掘、分布式安全查询、几何计算、科学计算等。分布式应用一般采用两种模式存储数据:垂直划分和水平划分的数据模式。垂直划分数据是指分布式环境中每个站点只存储部分属性的数据,所有站点存储的数据不重复。水平划分数据是将数据记录存储到分布式环境中的多个站点,所有站点存储的数据不重复。
2.1.3 基于匿名化的隐私保护技术
匿名化是指根据具体情况有条件地发布数据。如不发布数据的某些域值、数据泛化等。限制发布即有选择的发布原始数据、不发布或者发布精度较低的敏感数据,以实现隐私保护。
数据匿名化一般采用两种基本操作:
抑制:抑制某数据项,即不发布该数据项。
泛化:泛化是对数据进行概况、抽象的描述。譬如,对整数5的一种泛化形式是[3,6],W为5在区间[3,6]内。
2.2 数据加密
大数据环境下,数据可以分为两类:静态数据和动态数据。
静态数据是指:文档、报表、资料等不参与计算的数据;
动态数据是指需要检索或参与计算的数据。
使用SSL VPN可以保证数据传输的安全,但存储系统要先解密数据,然后进行存储,当数据以明文的方式存储在系统中时,面对未被授权入侵者的破坏、修改和重放攻击显得很脆弱,对重要数据的存储加密是必须采取的技术手段。
2.2.1 静态数据加密机制
2.2.1.1 数据加密算法
数据加密算法分为两类,对称加密和非对称加密算法。实际工程中常用的解决办法是对称和非对称加密算法结合起来,利用非对称密钥体系进行密钥分配,利用对称密钥加密算法进行数据的加密,尤其是在大数据环境下,加密大量的数据时,这种结合尤其重要。
2.2.1.2 加密范围
根据数据敏感性,对数据进行有选择的加密,仅对敏感数据进行按需加密存储,而免除对不敏感数据的加密,可以减小加密存储对系统性能造成的损失,对维持系统的高性能有着积极的意义。
2.2.1.3 密钥管理方案
密钥管理方案主要包括:密钥粒度的选择、密钥管理体系以及密钥分发机制。密钥是数据加密不可或缺的部分,密钥数据的多少与密钥的粒度直接相关。密钥粒度较大时,方便用户管理,但不适合于细粒度的访问控制。密钥粒度小时,可实现细粒度的控制,安全性更高,但产生的密钥数量大难于管理。
2.2.2 动态数据加密机制
同态加密是基于数学难题的计算复杂性理论的密码学技术。对经过同态加密的数据进行处理的得到一个输出,将这一输出进行解密,其结果与用统一方法处理未加密的原始数据得到的输出结果是一样的。记录加密操作为E,明文为m,加密得e,即e=E(m),m=E’(e)。已知针对明文有操作f,针对E可以构造F,使得F(e)=E(f(m)),这样E就是一个针对f的同态加密算法。
2.3 备份与恢复
数据存储系统应提供完备的数据备份和恢复机制来保障数据的可用性和完整性,一旦发生数据丢失或破坏,可以利用备份来恢复数据,从而保证在故障发生后数据不丢失。
2.3.1 异地备份
异地备份是保护数据最安全的方式。在发生火灾、地震等重大灾难的情况,在其他保护数据的手段都不起作用时,异地容灾的优势就体现出来了。困扰异地容灾的问题在于速度和成本,这要求拥有足够带宽的网络连接和优秀的数据复制管理软件。
2.3.2 RAID
RAID(独立磁盘冗余阵列)可以减少磁盘部件的损坏;RAID系统使用许多小容量磁盘驱动器来存储大量数据,并且使可靠性和冗余性得到增强;所有的RAID系统共同的特点是"热交换"能力,即用户可以取出一个存在缺陷的驱动器,并插入一个新的予以更换。对大多数类型的RAID来说,不必中断服务器或系统,就可以自动重建某个出现故障磁盘上的数据。
2.3.3 数据镜像
数据镜像就是保留两个或两个以上在线数据的拷贝。以两个镜像磁盘为例,所有写操作在两个独立的磁盘上同时进行;当两个磁盘都正常工作时,数据可以从任一磁盘读取;如果一个磁盘失效,则数据还可以从另外一个正常工作的磁盘读出。远程镜像根据采用的写协议不同可划分为两种方式,即同步镜像和异步镜像。本地社保遇到不可恢复的硬件损坏时,仍可以启动异地与此相同环境和内容的镜像设备,以保障服务不间断。
2.3.4 快照
快照可以是其所表示数据的一个副本,也可以是数据的一个复制品。快照可以迅速恢复遭破坏的数据。快照的作用主要是能够进行在线数据备份与恢复。当存储设备发生应用故障或者文件损坏时可以进行快速的数据恢复,将数据恢复某个可用时间点的状态。
3 数据挖掘安全技术
3.1 身份认证
身份认证:计算机及网络系统确认操作者身份等过程。也就是证实用户等真实身份与其所声称的身份是否符合等过程。
3.1.1 基于动态口令的认证机制
动态口令机制是为了解决静态口令等不安全问题而提出的,基本思想是用动态口令代替静态口令,其基本原理是:在客户端登录过程中,基于用户等秘密通行短语(SPP,Secure Pass Phrase)加入不确定因素,SSP和不确定因素进行交换(如:使用md5消息摘要),所得的结果作为认证数据(即动态口令)提交给认证服务器。由于客户端每次认证数据都采用不同的不确定因素值,保证了客户端每次提交的认证数据都不相同,因此动态口令机制有效地提高了身份认证的安全性。
3.2 访问控制
访问控制是指主体根据某些控制策略或权限对客体或其资源进行的不同授权访问,限制对关键资源的访问,防止非法用户进入系统及合法用户对资源的非法使用。访问控制是进行数据安全保护的核心策略,为有效控制用户访问数据存储系统,保证数据资源的安全,可授予每个系统访问者不同的访问级别,并设置相应的策略保证合法用户获得数据的访问权。访问控制一般可以是自主或者非自主的,最常见的访问控制模式有如下3种:
3.2.1 自主访问控制
自主访问控制是指对某个客体具有拥有权(或控制权)的主体能够将对该客体的一种访问权或多种访问权自主地授予其它主体,并在随后的任何时刻将这些权限回收。这种控制是自主的,也就是指具有授予某种访问权力的主体(用户)能够自己决定是否将访问控制权限等某个子集授予其他的主体或从其他主体那里收回他所授予的访问权限。自主访问控制中,用户可以针对被保护对象制定自己的保护策略。
3.2.2 强制访问控制
强制访问控制是指计算机系统根据使用系统的机构事先确定的安全策略,对用户的访问权限进行强制性的控制。也就是说,系统独立于用户行为强制执行访问控制,用户不能改变他们的安全级别或对象的安全属性。强制访问控制进行了很强的等级划分,所以经常用于军事用途。强制访问控制在自主访问控制的基础上,增加了对网络资源的属性划分,规定不同属性下的访问权限。这种机制的优点是安全性比自主访问控制的安全性有了提高,缺点是灵活性要差一些。
3.2.3 基于角色的访问控制
数据库系统可以采用基于角色的访问控制策略,建立角色、权限与账号管理机制。基于角色的访问控制方法的基本思想在用户和访问权限之间引入角色的概念,将用户和角色联系起来,通过对角色的授权来控制用户对系统资源的访问。这种方法可根据用户的工作职责设置若干角色,不同的用户可以具有相同的角色,在系统中享受相同的权利,同一个用户又可以具有多个不
3.3 关系型数据库安全策略
关系型数据库都设置了相对完备的安全机制,在这种情况下,大数据存储可以依赖于数据库的安全机制,安全风险大大降低。
3.4 非关系型数据块安全策略
企业采用非关系型数据库存储大数据,非关系型数据库存储的安全问题的探讨十分必要。关系型数据库主要通过事务支持来实现数据存取的原子性、一致性、隔离性和持久性,保证数据的完整性和正确性,同时对数据库表、行、字段等提供基于用户级别的权限访问控制及加密机制。
3.4.1 基于ACL的权限控制
Hadoop支持的权限控制分为两级:服务级授权(service level authorization)以及上层的HDFS文件权限控制和MapReduce队列权限控制,服务级授权为系统级,用于控制Hadoop服务的访问,是最基础的访问控制,优先于HDFS文件权限和MapReduce队列权限验证。
3.3 关系型数据库安全策略
关系型数据库都设置了相对完备的安全机制,在这种情况下,大数据存储可以依赖于数据库的安全机制,安全风险大大降低。
3.4 非关系型数据块安全策略
3.4.1 基于ACL的权限控制
通过ACL权限控制,Hadoop能保证数据库底层HDFS文件系统的服务级安全访问,通过用户和组的限制,防止非法用户对数据进行操作。文件的权限主要由NameNode管理。
3.4.2 基于令牌的认证机制
HDFS的服务间交互基本都是通过远程调用协议(RPC,remote procedurecall protocol)交互,但是HDFS客户端获取数据时却不完全依靠RPC机制。
3.4.3 数据完整性与一致性
HDFS的数据完整性分为两个部分:数据访问的完整性和数据传输的完整性。
1.数据访问的完整性:HDFS主要实现了CRC32校验。HDFS客户端在访问DataNode数据块时,是通过socket的方式获取数据流,Hadoop在FSInputStream和FSoutputStream的基础上,实现两个支持校验和的类和文件系统,FSInputStream和FSoutputStream使用数据流支持校验和。在客户端写入一个新的HDFS文件时,会计算这个文件中包括的所有数据块的校验和,并将校验和作为一个单独的.crc文件格式的隐藏文件,与数据文件保存在同一命名空间。
2.数据传输的完整性:HDFS数据块的存储支持完整性验证,主要通过核心类DataBlockScanner类实现,它通过在DataNode的后台执行一个独立的扫描线程的方式,周期性地对DataNode所管理的数据块进行CRC校验和检查。当它扫描发现数据块的校验和和原先不一致,将对数据块进行其他辅助操作。
4 数据发布安全技术
4.1 安全审计
安全审计是指在记录一切(或部分)与系统安全有关活动的基础上,对其进行分析处理、评估审查,查找安全隐患,对系统安全进行审核、稽查和计算,追查事故的原因,并作出进一步的处理。
4.1.1 基于日志的审计技术
SQL数据库和NoSQL数据库均具有日志审计的功能,通过配置数据库的自审计功能,即可实现对大数据的审计。
4.1.2 基于网络监听的审计技术
基于网络监听的审计技术是通过将对数据存储系统的访问流量镜像到交换机某一个端口,然后通过专用硬件设备对该端口流量进行分析和还原,从而实现对数据访问的审计。
4.1.3 基于网关的审计技术
基于网关的审计技术通过在数据存储系统在部署网关设备,在线截获并转发到数据存储系统的流量而实现审计4.1.4 基于代理的审计技术
4.2 数据溯源
数据溯源是一个新兴的研究领域,起源于20世纪90年代,普遍理解为追踪数据的起源和重现数据的历史状态,目前还没有公认的定义。在大数据应用领域,数据溯源就是对大数据应用周期的各个环节的操作进行标记和定位,在发生数据安全问题时,可以及时准确地定位到出现问题的环节和责任者,以便于对数据安全问题的解决。
4.2.1 将信息安全领域的数字水印技术用于溯源
数字水印是将一些标识信息(即数字水印)直接嵌入数字载体(包括:多媒体、文档、软件)中,但不影响原载体的使用价值,也不容易被人的知觉系统(如:视觉或听觉系统)觉察或注意到。通过这些隐藏在载体中的信息,可以达到确认内容创建者、购买者、传送隐秘信息或者判断载体是否被篡改的目的。
5.防范APT攻击
5.1 APT攻击的概念
美国国家标准技术研究所(NIST)对APT的定义为:攻击装掌握先进的专业知识和有效的资源,通过多种攻击途径(如:网络、物理设施和欺骗等),在特定组织的信息技术基础设施建立并转移立足点,以窃取机密信息,破坏或阻碍任务、程序或组织的关键系统,或者驻留在组织内部网络,进行后续攻击。
APT攻击的原理相对其他攻击形式更为高级和先进,其高级性主要体现在APT在发动攻击之前需要对攻击对象的业务流程和目标系统进行精确的收集,在收集的过程中,此攻击会主动挖掘被攻击对象受信系统和应用程序漏洞,在这些漏洞的基础上形成攻击者所需的命令与攻击(C&C)网络,此种行为没有采取任何可能触发警报或者引起怀疑的行动,因此更接近于融入被攻击者的系统。
5.2 APT攻击特征
5.2.1 极强的隐蔽性
APT攻击与被攻击对象的可信程序漏洞与业务系统漏洞进行了融合,在组织内部,这样的融合很难被发现。
5.2.2 潜伏期长、持续性强
APT攻击是一种很有耐心的攻击形式,攻击和威胁可能在用户环境存在了一年以上,他们不断收集用户信息,直到收集到重要情报。他们往往不是为了在短时间内获利,而是把"被控主机"当成跳板,持续搜索,直到充分掌握了目标对象的使用行为。所以这种攻击模式,本质上是一种"恶意商业间谍威胁";因此具有很长的潜伏期和持续性。
5.2.3 目标性强
不同于以往的常规病毒,APT制作者掌握高级漏洞发掘和超强的网络攻击技术。发起APT攻击所需的技术壁垒和资源壁垒,要远高于普通攻击行为。其针对的攻击目标也不是普通个人用户,而是拥有高价值敏感数据的高级用户,特别是可能影响到国家和地区政治、外交、金融稳定的高级别敏感数据持有者。
5.2.4 技术高级
攻击者掌握先进的攻击技术,使用多种攻击途径,包括购买或自己开发的0day漏洞,而一般攻击者却不能使用这些资源。而且攻击过程复杂,攻击持续过程在攻击者能够动态调整攻击方式,从整体上掌握攻击进程。
5.2.5 威胁性大
APT攻击通常拥有雄厚的资金支持,由经验丰富的黑客团队发起,一般以破坏国家或大型企业的关键基础设施为目标,窃取内部核心机密信息,危及国家安全和社会稳定。
5.3 APT攻击的一般流程
5.3.1 信息侦查
在入侵之前,攻击者首先会使用技术和社会工程学手段对特定目标进行侦查。
5.3.2 持续渗透
利用目标人员的疏忽、不执行安全规范,以及利用系统应用程序、网络服务或主机的漏洞,攻击者使用定制木马等手段,不断渗透以潜伏在目标系统,进一步地在避免用户觉察的条件下取得网络核心设备的控制权。
5.3.3 长期潜伏
为了获取有价值信息,攻击者一般会在目标网络长期潜伏,有的达数年之久。潜伏期间,攻击者还会在已控制的主机上安装各种木马、后门,不断提高恶意软件的复杂度。以增加攻击能力并避开安全检测。
5.3.4 窃取信息
目前绝大部分APT攻击的目标都是窃取目标组织的机密信息。
5.4 APT攻击检测
从APT攻击的过程可以看出,整个攻击循环包括了多个步骤,这就为检测和防护提供了多个契机。
5.4.1 沙箱方案
针对APT攻击,攻击者往往使用了0day的方法,导致特征匹配不能成功,因此需要采用非特征匹配的方式来识别,智能沙箱技术就可以用来识别0day攻击与异常行为。智能沙箱技术最大的难点在于客户端的多样性,智能沙箱技术对操作系统类型、浏览的版本、浏览器安装的插件版本都有关系,在某种环境当中检测不到恶意代码,或许另外一个就能检测到。
5.4.2 异常检测
异常检测的核心思想是流量建模识别异常。异常检测的核心技术是元数据提取技术、基于连接特征的恶意代码检测规则,以及基于行为模式的异常检测算法。
5.4.3 全流量审计
全流量审计的核心思想是通过对全流量进行应用识别和还原,检测异常行为。
5.4.4 基于深层协议解析的异常识别
基于深层协议解析的异常识别,可以细细查看并一步步发现是哪个协议,如:一个数据查询,有什么地方出现了异常,直到发现异常点为止。
5.4.5 攻击溯源(root cause explorer)
通过已经提取出来的网络对象,可以重建一个时间区间内可疑的Web Session、Email、对话信息,发现攻击源。
5.5 APT攻击的防范策略
目前的防御技术、防御体系很难有效应对APT攻击,导致很多攻击直到很长时间后才被发现,甚至可能还有很多APT攻击未被发现。
5.5.1 防社会工程
木马入侵、社会工程是APT攻击的第一个步骤,防范社会工程需要一套综合性措施,既要根据实际情况,完善信息安全管理策略。社会工程是利用人性的弱点针对人员进行的渗透过程。
5.5.2 全面采集行为记录,避免内部监控盲点
对IT系统行为记录的收集是异常行为检测的基础和前提。大部分IT系统行为可以分为主机行为和网络行为两个方面,更全面的行为采集还包括物理访问行为记录采集。
5.5.3 IT系统异常行为检测
从前述APT攻击过程可以看出,异常行为包括对内部网络的扫描探测、内部的非授权访问、非法外联。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。