赞
踩
序
最近的大数据行业风声鹤唳,多家大数据服务头部企业、贷超、催收公司被查,引发行业地震,未被牵连的企业纷纷自查,其他头部公司黑稿和纠纷频出。从业者如惊弓之鸟,人人自危;普通用户纷纷叫好,同时引发对隐私保护的担忧和强监管诉求。
此刻我又想起李彦宏的那段话:
“中国人对隐私问题的态度更开放,也相对来说没那么敏感。如果他们可以用隐私换取便利、安全或者效率。在很多情况下,他们就愿意这么做。当然我们也要遵循一些原则,如果这个数据能让用户受益,他们又愿意给我们用,我们就会去使用它的。我想这就是我们能做什么和不能做什么的基本标准。”
李彦宏
其实这个观点有一定道理,因为事实上很多用户就是这么做的。当然,其中部分用户知晓互联网应用收集了部分隐私数据,但是为了继续使用其服务不得已被迫授权;更多的用户根本不清楚被收集了哪些隐私数据以及它们被用来干什么,甚至不知道隐私政策在哪、是什么。之所以这个言论激起民愤,主要还是百度的口碑近年来每况愈下所致。大家不自觉的联想到百度的负面新闻上,或者联想到国内绝大多数应用“不授权不给用”的霸王条款。
个人认为这是市场发展的一个必经阶段。互联网金融的飞速发展,与信用体系建设的进度不匹配,加上国外Zestfinance等机构证明了利用替代数据进行风控的可行性,使得大数据风控作为央行征信体系的补充,几年之内迅速发展,衍生出各类黑灰产,在《网络安全法》及两高司法解释发布之前,很多数据已经在市场上流通,数据堂等公司被立案之后,行业才逐步往合规方向发展。随后,我们看到八家准个人征信牌照变成一张,相关隐私保护法规密集出台(近期《个人金融信息(数据)保护试行办法》初稿也在征求意见了),官方数据接口(如学信等)逐渐收紧,以及最近的爬虫供应商处在风口浪尖。法规在逐渐完善,用户在基本的移动互联网应用基本需求被满足了之后,隐私保护意识也在逐渐觉醒。
而爬虫只是众多技术的冰山一角,本文希望通过对当前各类新技术(大数据、网络爬虫、云计算、移动互联网、物联网及边缘计算、区块链、生物特征识别、黑产技术等)给隐私保护带来的挑战说起,探讨企业、个人及监管机构可能的应对措施。由于内容过长,本文将分三次发布,本次发布第一部分,重点探讨大数据技术对隐私带来的挑战。
引言
根据Hootsuite和Weare social的《2019 Q3 Global Digital Statshot》,截止2019年三季度,全球网民已达到43.33亿人,互联网普及率达56%:
图1 2019年三季度全球网民人数
这意味着,全球半数以上的人口数据已经在互联网上留有记录。当然,这是非常保守的估计,随着金融科技的发展,更多的人在知情或不知情的情况下,个人信息已经被各类智能家电、公共摄像头、智能医疗器械等等采集,并且被加工后用于产品升级和精准营销。个人信息数字化的趋势已不可避免,随之而来的便是个人隐私数据的泄露愈发严重。根据Gemalto《2018上半年数据泄露水平指数报告》,2018年上半年全球数据泄露总量为45亿条,比2017年同期增加133%,值得注意的是,泄露事件的总数相比去年反而下降了,说明每次事件造成的后果更加严重。[1]尤其是还发生了Facebook-剑桥分析这样影响重大的泄露事件,给全球的数据安全行业再次敲响了警钟。
图2 FACEBOOK听证会(图片来自网络)
接下来,我们将从各类新技术的本质切入,探讨其给隐私保护带来的新挑战,以及各方的应对措施。
金融科技给隐私保护带来的挑战
一、大数据技术给隐私保护带来的挑战
在谈论具体技术之前,我们先来看看隐私的定义,早在1890年,沃伦(SamuelD.Warren)与布兰代斯(Louis D. Brandeis)在《论隐私权》一文中就提出:隐私权指公民享有的私人生活安宁与私人信息依法受到保护,不被他人非法侵扰、知悉、搜集、利用和公开的一种人格权。作为一项法律权利。其中就明确提出了“私人信息”的概念,信息即数据,因此隐私这一概念从一开始就和数据密不可分。
大数据时代,私人信息的用途越来越多,价值越来越大,因此也更容易被提供,更容易获取,更容易被分发,自然也更容易泄露。本节我们暂不考虑多样化的数据源头,仅就大数据相关技术本身对隐私保护带来的挑战进行讨论。
1. 相关性分析
相关分析是研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法[2]。大数据分析的一个重要特点就是着力于分析相关关系而不是因果关系,不过相关性分析和个人隐私有什么关系呢?
2006年10月,Netflix举办了一项奖金高达百万美金的大赛,公开征集电影推荐系统最佳算法,以提升现有电影推荐系统Cinematch的算法推荐成功率10%为目标,为此Netflix发布了一个训练用数据集,并提供了免责声明:为保护客户隐私,可识别单个客户的个人信息已被删除,并且所有客户ID已用随机分配的ID[sic]替代。Netflix不是网络上唯一的电影评级门户网站,其他网站还有很多,包括IMDb。个人可以在IMDb上注册和评价电影,并且可以选择匿名化自己的详情。德克萨斯州大学奥斯汀分校的研究员Arvind Narayanan和VitalyShmatikov将Netflix匿名化的训练数据库与IMDb数据库(根据用户评价日期)进行匹配[3],仅选取了50位IMDb用户的小样本,居然识别出了2位用户的具体身份[4]。
虽然Netflix已经把训练数据集的客户ID做了匿名处理,但是采用相关性分析,还是可以通过与其他数据源的匹配来识别客户,这在大数据技术普及之前是难以想象的。这类情况也直接导致了差分隐私技术的发展,后文会介绍差分隐私的相关概念。
2. 回归分析
回归分析是大数据分析技术中常用的另一种技术,主要用于预测性建模,研究的是因变量和自变量之间的关系,常用的方法有线性回归、逻辑回归等。
最经典的例子莫过于美国零售商塔吉特利用购物清单预测女性顾客是否怀孕了,明尼苏达州一家塔吉特门店被客户投诉,一位中年男子指控塔吉特将婴儿产品优惠券寄给他的女儿——一个高中生。但没多久他却来电道歉,因为女儿经他逼问后坦承自己真的怀孕了。[5]
谈论塔吉特公司的例子时,大家可能觉得事不关己,而说起Facebook-剑桥分析事件,则更有切身体会。通过一个心理测试三方小程序,以五美元为诱饵,吸引27万用户答题并且用Facebook账号授权登录,借此获取了他们的公开数据以及近五千万的好友信息,通过寻找摇摆州的部分情绪不稳定选民,对其投放广告施加影响,剑桥分析间接的操纵了大选。[6]
图3 好友之间的关系可视化
虽然很难说剑桥分析的广告到底对大选造成了多少影响,但是这个事件的真正可怕之处,在于开启了一种隐私数据滥用的全新模式,为全球的黑产提供了一个新的思路。攻击者可以通过社交网络平台提供的公开接口,以少量金钱或积分进行诱导,让用户自行提供账号相关信息。攻击者不必知道客户的具体身份,只要获取用户在平台的ID,就可以对其进行广告投放,恶意欺诈,身份伪冒等等,轻则导致个人隐私和财产受到损失,重则煽动群体立场,进而操纵各类投票、选举,甚至引发群体性事件。
3. 开源大数据平台
目前最流行的大数据开源框架Hadoop,最初是基于Google的GFS和MapReduce论文,基于服务器环境可信的前提下构建的,并未考虑整体的安全规划。尽管目前开源社区已经增加了一些访问控制、加密等安全机制,来解决不断增加的用户需求,但是仍然缺乏统一的安全体系,特别是在账号权限部分,访问控制仍然依赖于底层Linux的权限管理。而开源的特性更是导致很多隐患暴露在开放的互联网中。根据CVE(Common Vulnerabilitiesand Exposures )漏洞列表,2012年~2018年共有22个Hadoop平台漏洞[7],其中多个与数据泄露有关。而Hadoop的核心——分布式存储HDFS,由于默认配置和MongoDB类似,允许非授权用户访问,2018年1月,就有攻击者利用这些设备的漏洞,将文件夹全部删除,并且建立了一个名为“NODATA4U_SECUREYOURSHIT”的目录,预计影响了8000-10000个HDFS节点。[8]根据在线设备搜索引擎Shodan在2017年5月的报告,已有超过5120TB基于HDFS存储的数据存在泄露风险,其中美国和中国的HDFS节点最多,[9]分别为1900个和1426个。
二、 网络爬虫技术给隐私保护带来的挑战
网络爬虫技术并不是一个新技术,最初是搜索引擎用来抓取散落在因特网上的海量网站,解析后为用户提供搜索服务的一种技术,本质上是模拟浏览器浏览网页的行为,用程序获取网页上展示(或隐藏)的数据。Web 1.0时代,互联网上的个人信息少之又少,以门户、新闻等信息为主,爬虫低调而务实,仅仅是一个搜索引擎收集数据的工具。Web 2.0时代,随着UGC(User Generate Content)的增加,爬虫可以用来做一些群体用户行为分析了。互联网+时代,特别是互联网金融的发展,大数据供应商们绞尽脑汁,寻找一切可以判定个人信用的数据,从最早的信用卡邮箱账单,到社保、公积金、运营商通话详单,甚至通过模拟登陆网贷平台,来判断一个手机号是否曾经注册过,或者登陆B网贷平台,用其额度和利率来作为A平台的风控参考。
诚然,技术并无对错,这几年由于需求旺盛,大数据供应商如雨后春笋般遍地开花,替代数据风控模式如百花齐放般层出不穷,确实使得国内互联网企业、金融机构在大数据风控方面有了不小的发展。然而监管的滞后,让大量无牌照的大数据公司赚得盆满钵满,还把爬取到的数据通过批量出售、交换等方式获取多次利润和更多的数据。
出来混,总是要还的,通过违法方式收集数据的公司必然会受到法律的制裁,但是由于数据作为资产的特殊性,流通到黑市和暗网上的数据,却已经难以追回,因此隐私泄露,只有0次和无数次,一旦泄露,造成的危害难以想象。
关于如何使用网络爬虫技术才是合规的,近期已经有不少文章做过精彩论述,本文不再赘述。这里数据玩家主要想探讨的是,不管企业合不合规,爬虫技术到底可能带来哪些隐私泄露的风险,我们应该如何避免?这里我们分成公开数据和非公开数据两类分别讨论。
1. 公开数据
即任何人不需要登录任何账号、或登录一般账号就可以查看的数据,比如用户在各类论坛、贴吧、微博等发布的内容
大家会感觉这些数据没什么隐私,因为都是自主发布的,一般人也不会把自己的隐私信息公开发布。当然,完整的隐私信息没人会公开发布,但是由于隐私保护意识不够,社交媒体上经常见到有人晒出各种暴露隐私的信息,再加上之前介绍的大数据相关分析技术,可以很容易的复原一套完整的个人隐私信息。
我们举个栗子:
小明为了在社交网络上刷存在感,所有平台的ID都是一样的,叫xiaoming0229(疑似生日get)。
国庆出国去玩,小明在微博晒了自己的登机牌(姓名get)
在贴吧找一个资源,小明留下了自己的邮箱:xm137xxxxxxx@qq.com(疑似手机号get)
小明出差很多,有一次在知乎回答“整天出差的工作是一种什么体验”的问题时,小明晒出了一叠火车票,大部分信息都遮住了,但是身份证后四位没遮住(身份证后四位get)
小明在某个地区论坛认老乡,发帖说到自己的身份证也是XXXXXX开头的(身份证前六位get)
小明是某闰年2月29日出生的(ID也可以看出来),在豆瓣加入了2月29日出生的小组,并且晒出了出生年月日(身份证中间八位get)
看到这里,大家应该发现,拿到小明的姓名+身份证+手机号三要素一点难度都没有,如果小明神经再大条些,在某个羊毛论坛晒自己的借记卡没把卡号遮住,在某个社交媒体晒自己的身份证大头照有多不满意……一套完整的四要素,加上身份证照片都可以做好了。
四要素能干嘛呢?可以做的事情太多了,我们留到黑产章节再详细介绍。
大家看到这里可能认为这个案例太极端了,而且很多数据并非标准化(如登机牌、火车票的照片等)。确实这是一个极端的例子,难以大规模实施攻击,但是如果黑客有意针对一个个体进行攻击的话,完全是可以做到的。与其抱有侥幸心理认为下一个不会是你,不如提升隐私保护意识,防患于未然。
2. 非公开数据
即必须登录特定账号才能查看的数据。比如邮箱、社保、公积金、运营商官网等。
相比公开数据来说,由于需要用户授权自己的用户名、密码,大多数用户对于这类数据是相对比较谨慎的。但是由于需要获取这些数据的,一般都是金融相关的企业,用于辅助信用评估,所以当一个人有了金融需求,真的需要借钱时,往往对于隐私的谨慎就排不到第一位了。
这类爬虫最大的风险点除了获取的数据外,在于获取了用户的密码。如果非要授权,至少应该改一个临时的密码,授权之后再改回自己常用的密码,毕竟大多数人常用的密码就那几套,我们可以相信一个企业的底线,但是难以估计企业里每一个员工的素质。
另外,关于邮箱的授权,一般是用于信用卡账单管理,这是一个需要持续授权的服务,最好单独用一个邮箱来做信用卡账单邮箱授权。如果已经有常用的邮箱又懒得改,也可以用邮箱提供的来信分类功能,将特定邮件转发到特定邮箱(51信用卡已经提供了这个功能)。常用邮箱密码一旦泄露是非常麻烦的,绝大多数社交平台、甚至有些金融机构直销银行的密码,都可以通过邮箱重置。
总之,在隐私保护这件事上,建议做到以“小人”之心度“君子”之腹。
图1 邮箱来信分类功能,避免直接提供邮箱密码
三、云计算技术给隐私保护带来的挑战
云计算给互联网和金融行业带来了诸多益处,比如接入方便,压缩成本,弹性计算等等,同时也带来一系列问题,尤其是数据安全方面。由于云计算服务提供商的承载了多家企业的生产系统,如果出现故障,很容易造成大面积企业受到影响,进而造成更大面积的个人用户受到影响,如2018年8月发生的腾讯云数据丢失事件[1],虽然类似大规模数据丢失事件极少发生,但是通过搜索相关云服务商数据丢失的情况,发现非常多局部数据丢失的情况,出于对云服务的信任,多数用户并没有保存本地备份,导致数据无法找回。同样,我们有理由担心,如果发生云服务商数据泄露,造成的影响也是单个企业数据泄露所无法比拟的。
由于云计算的底层服务器,包括操作系统、组件等,都是多租户共享的,因此黑客有可能通过底层服务入侵,一旦破解,那将如入无人之境。攻击者可以通过自身安全意识不强的企业用户作为突破口,从木桶的短板进攻,使得同一云平台的其他企业用户同样危险。而且由于公有云服务的接口都暴露在公网上,使得攻击更容易进行。
更为危险的是内部人作案,如果云服务商的内部员工作案,将会导致极大规模的数据泄露,再加上不少金融机构也开始上云了,金融机构的数据如果泄露,后果不堪设想,事实上这种情况在Capital One已经发生了[2]。云服务商为了给各地用户提供低延迟的服务,会建立多个物理数据中心,不同地区的数据中心,在物理设施、人员配备、管理细则上参差不齐,也给了攻击者可乘之机。[3]
企业上云是大势所趋,遗憾的是,我们没什么办法来在这趋势中更好的保护自己的隐私,只能寄希望于上云的企业,以及云服务供应商,在技术上做好安全防护、数据加密,管理上做好权责分离。
四、移动互联网技术给隐私保护带来的挑战
1.定位数据
区别于PC互联网时代,移动互联网时代最有特点的数据就是定位数据,从原来的IP定位,已经发展到GPS定位以及运营商基站定位。人们在享受定位数据带来的便捷服务的同时,也承担着相应的风险。比如,通过提供LBS(LocationBased Service)服务的App,变换三次位置可以框定附近某个用户的位置;通过手机相机拍摄的照片Exif(ExchangeableImage File)信息,也可以获取该照片拍摄的GPS定位;更不用说用户们在社交网络上主动分享自己定位了。
定位信息仅仅泄露的是个人隐私,风险相对可控,但是结合大数据分析及可视化技术,大量用户的定位信息可能带来更大的危害,比如揭示军事机密。这并非天方夜谭,Strava是一款户外运动健身App,由于用户中有很多军人,结合他们的运动轨迹和已知军事基地的大概范围,可以挖掘非常多的信息,甚至揭露隐藏的军事基地。[4]
图2 Strava Global heatmap(图片来自https://www.iafrikan.com)
2.设备数据
除定位数据外,各类App还会收集各类设备信息,尤其是具有金融借贷属性的App,为了识别用户的还款能力和还款意愿,以及对用户是否本人进行判断时,常常收集App安装列表、通讯录、通话记录、短信等,持牌金融机构会在用户授权的前提下获取数据,并且保证数据的安全,但其他机构则未必,轻则提供数据给外包催收公司进行暴力催收,重则违法出售数据给黑产牟取暴利。
图3 设备农场(图片来自网络)
收集部分设备数据主要是用来防范黑产,比如图3这种设备农场,这一批设备的陀螺仪角度、电池电量、App版本、操作系统版本等等都是类似的,当营销活动中出现一批类似的设备时,通常是黑产来了。如果不加防范,大量的营销费用可能都进了黑产的口袋。
对于持牌金融机构的App,大家不用过于紧张,除了通讯录、通话记录、短信之外,设备数据绝大多数是去隐私化的,即无法识别用户的身份。但是有一类数据比较特殊,也容易被大家忽略,数据玩家这里重点提一提,那就是相册数据。
相册数据需要的权限比较低,读写外部存储权限即可。相册中经常保存着一些我们容易忽略的敏感信息:
通过微信发送、接收的图片
各类App调用摄像头拍摄过的照片
人脸识别过程中产生的自拍图片、视频
手机截图
……
图4 相册里的秘密
这是数据玩家自己的相册,刚看了一眼,才清理过又发现了不少敏感信息,比如身份证照片,这是之前在某App做了OCR证件识别以后留下的,这个如果被别有用心的App拿去,后果难以想象。如果有人脸识别的视频就更麻烦了,拿去做个活体监测一点问题也没有。大家也可以看下自己的相册,希望没有惊喜,有的话尽快清理,不然会变成惊吓。
在安装App时一定要慎之又慎,选择可信的渠道,安装可信的App,对于非必须的授权一律禁止,必须授权才能使用的App尽量寻找替代品。
2019年8月8日,《信息安全技术移动互联网应用(App)收集个人信息基本规范(草案)》公开征求意见,明确了个人信息最少够用的原则,并且针对21类常用App可收集到的最少信息及使用要求做了规定,当用户拒绝提供最少信息之外的个人信息时,APP不得以任何理由拒绝该类型服务,同时,对外共享、转让个人信息前,APP应事先征得用户明示同意。相信对于设备数据的收集会逐渐规范起来。
五、物联网及边缘计算给隐私保护带来的挑战
2016年10月22日, Mirai病毒将数百万路由器、智能摄像头当做“肉鸡”向美国域名服务器管理机构Dyn发动大规模的DDos (分布式拒绝服务)攻击,致使美国互联网大面积瘫痪。[5]
此外还有360水滴直播事件[6], LG智能家居漏洞事件[7]等等,甚至RFID(RadioFrequency Identification)技术也会导致隐私泄露[8],物联网及边缘计算相关的安全事件频发。究其原因,主要是因为物联网和边缘计算的风险集中在设备端,多种类型、多种型号的设备处于开放的环境中,更容易被攻击,无防火墙防护,更易损耗,难以远程修复漏洞和升级补丁,更易获取用户相关隐私信息。
大家普遍认为摄像头数据泄露是带来隐私危害最大的,却忽略了路由器最为所有智能设备的入口,其安全性的重要性。如果路由器被攻破,所有家用智能设备也等于被攻破。360安全大脑通过对用户的调研显示,61.7%的用户会修改密码并设置高防护密码,而30.5%的用户会使用弱密码,还有6.8%的用户根本不去修改密码。[9]由于wifi的连接密码可能被可以共享wifi密码的App共享出去,而很多路由器的控制台通过admin/admin就可以登陆,钓鱼网站、流量劫持,黑客便可以如入无人之境。另一个被忽略的智能设备是智能音箱。正常情况下,用户唤醒音箱后,音箱才可以收集用户语音等信息,由于识别率不高或唤醒算法缺陷等,有可能智能音箱在未被唤醒的情况下,自行唤醒,从而造成隐私泄露。[10]
由于物联网、边缘计算本身还处在发展初期,自然会出现较多的安全漏洞,相信随着相关技术的完善,安全体系也能够得以加强。
六、区块链技术给隐私保护带来的挑战
本节仅针对公有链带来的隐私保护问题进行讨论。由于每个节点都能够获取全部的交易数据备份,因此每个节点进行的所有交易都是透明的。虽然通过交易地址无法关联到个体的真实身份,但是通过相关性分析,通过交易所实名注册信息、社交媒体用户自行发布的信息、IP地址等等,仍然有可能推测出账户与个体的关联。加上区块链不可篡改的特性,一旦用户的地址与真实身份被关联起来,该用户的所有交易将会大白于天下,和他有过交易的客户也难以幸免。
针对以上问题,业界目前主要有三类比较好的应对方法,环签名、同态加密与零知识证明。
其中,环签名可以在多个公钥中,隐藏自己拥有私钥的那个公钥,可以在区块链交易中隐藏交易的发起人;
同态加密是指有一种加密方法,可以允许我们对加密后的密文进行运算,其结果解密后等于明文做同样运算的结果。打个比方,有一颗钻石希望找人加工,但是又怕被加工的人掉包,可以将钻石锁在一个带手套的操作箱内,这样就可以通过手套加工钻石而又无法取出,加工完成后自己开锁即可;
零知识证明是指在不像验证者提供任何信息的前提下,是验证者相信某个论断是正确的。比如两个数学家都声称掌握了某种方法,但是为了不让对方掌握细节,又不能把具体方法披露出来,如果通过零知识证明的方法,就能够在不泄露具体方法的前提下,证明自己掌握了该方法。
不过区块链技术的应用目前还不太多,仍然以数字货币为主,随着更多应用的落地,很可能会出现新的隐私泄露问题。
七、生物特征识别技术给隐私保护带来的挑战
账号密码泄露了可以更改,手机号泄露了可以更换,设备被入侵了也可以更换,但是如果你的指纹被盗取了呢?
生物特征不同于后天产生的数据,具有普遍性、唯一性、稳健性、易采集性等多种特点。即这些生物特征是普遍存在的,且不同个体具有不易改变和容易采集等特点,这些特点导致了生物特征一旦泄露造成的危害将会更大。目前常用的生物特征识别技术包括:指纹识别、人脸识别、虹膜识别、掌静脉识别、声纹识别、姿态识别等,还包括结合多种生物特征的多模态识别。[11]
生物特征通过专用的传感器进行采集,转换为生物信号,经过特征处理和识别,完成生物特征识别,值得一提的是,为了防止被破解,常使用活体识别技术,通过生物特征在一定物理条件下的自然变化,以及按指定要求发出的特定动作,来判断用户是否本人。
然而就算是活体识别技术也并不安全,2017年的央视315晚会上,主持人就现场演示了活体识别破解的过程,只需要用户本人的照片即可,常在朋友圈晒自拍的你是否感觉到不寒而栗。
通过用户分享的照片进行攻击通常具有较强的个体针对性,即容易对单个用户展开,不易对群体用户发起。不过我们假设这样一个场景:朋友圈里有一个小程序【测测你的颜值有几分】在传播,你好奇的试了一下,小程序的服务提供方就获取了你的高清照片,甚至是一段活体影像,谁能保证这个服务商不是第二个剑桥分析呢?
由于用户的防范意识薄弱,获取照片比用户密码容易得太多,加上人脸识别技术本身不够成熟,使得黑产有机可乘。现在,基于生成式对抗网络(GAN)已经可以做到视频换脸,所以破解活体识别从一个技术问题,变成了一个成本问题,只要收益能覆盖成本,就有人会铤而走险。
图5 杨幂版小龙女
在所有生物特征中,人脸照片确实易于获取,相比之下,指纹则似乎更安全,必须获取到用户本人接触过的物品才行,难以被黑产大规模盗取。不过日本国立情报学研究所的研究人员Isao Echizen表示,即使无意中在镜头前摆出“剪刀手”也会泄露自己的指纹,而且任何人都可以轻而易举地获取它,根本不需要高科技手段的帮助。他说:“将强光集中在照片中人像的指纹,指纹数据就可以再现。”[12]不禁让人感叹,防不胜防。
黑产相关技术给隐私保护带来的挑战
黑产相关技术虽然并不属于金融科技的范畴,但是它伴随金融科技而生,并且对个人隐私产生非常严重的危害。下文将对常见的黑产技术及攻击方式进行介绍。
1. 木马及病毒
危害最大的方式仍然是木马和病毒,通过这种方式,攻击者可以控制或损害用户的设备,造成用户的直接资产损失或通过勒索达到目的。PC端通常通过恶意网站、垃圾邮件、U盘中附带的恶意程序来达到控制用户设备的目的,手机端则是通过恶意App、恶意网站(或二维码)或者直接通过充电线连接手机(通常通过免费手机充电等设备实施攻击),引诱用户打开USB调试模式,进行攻击。造成直接资产损失的案例数不胜数,通过勒索达到目的的案例有臭名昭著的比特币勒索病毒WannaCry。
2. 中间人攻击
随着用户安全意识的提高,木马及病毒的成功率逐渐降低,中间人攻击更容易达到效果。中间人攻击(英语:Man-in-the-middle attack,缩写:MITM)在密码学和计算机安全领域中,是指攻击者与通讯的两端分别建立独立的联系,并交换其所收到的数据,使通讯的两端认为他们正在通过一个私密的连接与对方直接对话,但事实上整个会话都被攻击者完全控制。在中间人攻击中,攻击者可以拦截通讯双方的通话并插入新的内容。[1]
通过中间人攻击,黑客想在不被用户感知的情况下,获取用户的隐私信息,包括但不限于:姓名、证件号、密码、短信验证码、金融账户信息、照片等等,攻击手段多种多样,常见的有:
通过虚假wifi,受害者设备连接后上网流量对攻击者透明,如果有网站使用明文传输卡号、密码等信息,则会被攻击者截获;
伪基站+短信嗅探,通过伪基站“吸附”2G状态的手机,并嗅探对应手机接收到的所有短信[2]。目前很多金融、支付类App,为了提升用户体验,小额支付通常采用免密或短信验证码单因素验证,加上反欺诈规则薄弱,无法识别陌生设备登录,黑产可以通过小额多次交易来盗刷客户的账户。
钓鱼网站,通过模拟一个和真实的银行网银一模一样的虚假网站,引诱用户输入账号、登录密码、交易密码、短信验证码,同时将相关信息填入真正的银行网站,转账给目标账户,达到盗取客户资产的目的。钓鱼网站从界面上与原版网站完全一致,区分方法主要是通过网址,黑产通常也会把网址设置为与原版网站高度一致,比如http://www.1001O.com。
太阳底下没有新鲜事,今年3月虚拟币交易所币安被攻击,也是通过钓鱼网站开始的。[3]
图1 币安的钓鱼网站(图片来自https://new.qq.com/rain/a/20180503A0BLTQ)
3. 社会工程学
通过以上手段很有可能仍然无法获取足够的信息,此时就要借助社会工程学来进行进一步的攻击。在计算机科学中,社会工程学指的是通过与他人的合法地交流,来使其心理受到影响,做出某些动作或者是透露一些机密信息的方式。这通常被认为是一种欺诈他人以收集信息、行骗和入侵计算机系统的行为。[4]
在社会工程学的开山鼻祖凯文·米特尼克的《欺骗的艺术》一书中,举了一个社会工程学的经典案例,负责开发电汇交易备份系统的斯坦利·马克·瑞夫金偷看到了电汇交易员为了图省事写在纸片上的交易密码,随后通过伪装成银行工作人员像电汇交易员发起汇款指令,获利超过一千万美元。[5]
现在的系统复杂度不可能通过如此简单的办法进行破解,但是社会工程学的思路通过上例已经充分展现了,即利用人的认知偏差,让受害者自行提供相关的敏感信息。比如常见的电信诈骗,利用人们畏惧权威的心理,攻击者通过伪装成法院、公安人员,威胁受害者转账到指定账户,或伪装成高校老师,威胁受害学生转学费到指定账户等,通常目标是青少年和中老年。
为了利用人们一套密码多处使用的习惯,黑客建立了很多“社工库”,通过社工库可以查询被泄露的网站用户名密码,获取这些隐私数据的过程叫做“拖库”,使用这些用户名密码尝试登陆其他网站的过程叫做“撞库”,如果客户使用一套用户名密码登陆多个网站,则容易被撞库攻击,并且获取多个网站的相关信息,可能包含姓名、手机号、邮箱地址、证件号、金融账户信息等等,造成难以估量的损失。
举一个社工库的例子,为避免造成不好的影响,具体地址我就不放了,大家可以在搜索引擎里尝试搜索。里面包括了几次比较重大的数据泄露事件泄露出的数据,其中包括某易邮箱,某商城和某书城看链接名字就能猜到(某东和某当),大家可以尝试用一个非敏感信息查询,比如邮箱或账号,看看自己的数据是否被泄露过,比较麻烦的是密码,如果看到自己的邮箱关联出一个常用明文密码,尽快把所有用过这个密码的地方都改掉。需要注意的是,这个网站本身就可能钓鱼,比如,同一IP、Cookie,查询了一套姓名、手机号、邮箱,这本身就是一套用户主动泄露的隐私,这也是为什么数据玩家建议大家用非敏感信息来查询。风险常在,警钟长鸣。
图2 某社工库
一个完整的社工案例可以参见:
https://www.shangyexinzhi.com/article/details/id-253080/
帮大家简单总结一下路径:网站客服QQ->社工库获取密码->密码为常用密码被彩虹表破解->密码推测常用ID->全网搜索ID->获取常用QQ->腾讯微博获取身份证号(关键)->邮箱作为支付宝账号获取姓名->黑产工具通过二要素获取身份证照片->黑产工具获取手机号->QQ号域名反查获取个人网站->个人网站原图获取EXIF信息->EXIF信息获取GPS定位->完成。
这个案例是白帽子为了追回被骗资金获取个人信息,在交涉时起到威慑作用,如果用来做其他事情呢?
如果不是威慑,而是伪装成亲友借钱呢?
或者伪装成公安、司法、刑侦要求你转账到安全账户呢?
毕竟你的信息对方一清二楚,你可能也会怀疑自己的判断,可能今后还有层出不穷的骗局出现,源头都是隐私信息的泄露。
因此,最关键的还是在源头保护好自己的隐私,防止自己的隐私数据在黑市上流转。
4. 隐私数据的变现
还记得第二篇里的小明吗,假设我们获取了小明的四要素,能做什么呢?
直接出售,通过暗网或者黑市,一套四要素大概在数十元至数百元不等,由更专业的黑客筛选、购买。低水平黑客看量不看质,只注重获取的信息数量,通过倒卖大批量数据获利。而高水平黑客则相反,则筛选高价值的信息,即寻找高价值的个人信息单点突破,目标是单个个体的账号入侵、资金盗取。
隐私数据被专业的黑产团伙购买后,可以进行体系化、产业化的获利与变现。
他们分工明确,有专门的漏洞发现团队,寻找各互联网平台的漏洞;
专门的数据采购团队,负责采购泄露的隐私数据;
专门的工具团队,负责研发黑产工具;
专门的攻击团队,实施攻击和欺诈。
在无法获取短信验证码的情况下,主要是利用新平台的营销获客活动漏洞,注册平台账号获取营销费用,甚至注册某些银行的直销银行开立二类户。
是的,有些平台为了快速冲量,短信验证码都不验,甚至平台的市场部或者运营部关键岗位和黑产勾结,让黑产用买来的四要素帮平台冲量,黑产赚取营销费用,市场运营完成KPI,投资人看到高增长,皆大欢喜。
此情况下仍然是以大量账户的控制为主,单个账户的获利较少。
假设黑产通过钓鱼网站、木马、伪_基_站设备吸附等手段,截获了短信验证码,那损失就不可控了。
除了可以想到的所有银行账户、支付宝、微信余额被转移之外,危害更大的是通过支付通道购买虚拟物品变现,特别是利用信_用_卡、花呗、借呗、微粒贷等产品,形成大量透支余额和借款。
甚至,通过新开立二类户,用二类户注册各类网贷平台下款,一般的小贷平台开户下款完全没问题(目前具备五要素验证,即验证账户是否二类户的平台少之又少),更不用说714高炮了,下款到二类户以后,通过购买虚拟商品套现。
幸运的是央行为了防止二类户盗用风险,限制了二类户的单笔单日消费金额,所以损失相对可控。
更麻烦的情况是,遇到更专业的黑产团伙,会通过各类网赚平台,招募代开账户的人,要求是:
长得和他们买到的身份证上的人比较像。
其实也不用长得太像,本来身份证照片和本人就有一定差距,加上很多四五六线小城市电信营业厅、银行网点审核不严,所以完全可以用身份证复印件,甚至临时身份证开出N个手机号吗,甚至一张一类银行卡。
后面的事情就难以想象了。
万幸,现在银行网点开户过程中,人脸识别逐渐普及,甚至开手机卡也要人脸识别了[6],这类线下的欺诈手段逐渐会消亡。
不过信息仍然会流转到电信诈骗团伙的手中,大家应该也听过不少电信诈骗的案例,此处不再赘述。
各方应对措施
随着消费者隐私保护意识的逐渐增强,相关法规的密集出台,隐私保护的整体趋势越来越严。换个角度看,在如此严格的保护下获取的个人隐私数据,具有更大的商业价值,黑产只会更加蠢蠢欲动,因为造成的损害越大,黑产获利越高。在这种趋势下,个人、企业、监管机构应该如何应对?
个人应对措施
对于个人用户而言,妥善保管自己的账号、密码、证件及设备,不同账户采用不同的账号/密码,重要账户的密码最好能够定期更改。安装软件或手机应用时,应选择可信的渠道,不随意打开垃圾邮件、垃圾短信或扫描不可信的二维码。
除了比较关键的App或平台,尽量不使用手机号登录,关闭微信、支付宝等【通过手机号找到你】【通过QQ号找到你】【通过邮箱找到你】等功能,如果有人想转账给你,发给他你的收款码即可,实在不方便也可以临时打开相关功能。
不同网站尽量使用不同的邮箱注册和关联,可以分享的小技巧是:
Gmail邮箱在中间任意加英文句号”.”算作别名,和不加之前是等价的,比如abc@gmail.com和a.b..c.@gmail.com是一个邮箱,发往这两个地址的邮件都会被收到,但是可以用这两个甚至更多类似的邮箱注册不同的平台。
另外,有的邮箱提供别名功能,比如Outlook,也可以达到类似效果,甚至更好。
社交平台生日避免提供自己真实生日,因为它是你身份证号的一部分。同时,也避免在社交平台发布自己生日的信息,或者避免陌生人看到这些信息。
谨慎提供个人信息,不管是遇到以中奖、威胁等各类理由有意套取的陌生人,还是对无法验证身份的熟人;自己主动在社交媒体分享也要格外小心,特别是照片、位置、截屏等信息,拍照的时候关掉定位,开启定位会让你的照片EXIF信息中包含GPS地址;机票、火车票、购物小票等也需要做模糊处理,最好还是避免晒出这些信息。
谨慎提供手机应用授权,仅提供必需的授权。尽可能选择持牌金融机构接受金融服务,其他行业则尽可能选择行业头部的知名机构。
现在流量便宜了,别蹭免费WIFI,甚至不要经常打开手机的WIFI开关,因为路由器可以协助定位,你的手机能接收到哪些WIFI信号,以及这些信号的强度,也可以定位出你的精确位置。
当然,隐私泄露的关键,不在于个人是否愿意授权机构采集自身数据,而在于机构是否能够妥善保管隐私数据。过于在意个人隐私,拒绝一切需要提供个人信息的服务,在当下也会造成诸多不便。只有让渡部分个人信息,才可能让企业为个人提供更精准和优质的服务。每个人都需要在提供个人信息以享受更好的个性化服务,与保护个人隐私之间寻求一个平衡。
《个人金融信息保护技术规范》解读
《个人金融信息保护技术规范》发布了,数据玩家对内容进行了研读,初步进行了归类整理,话不多说,进入正题。
规范首先对个人金融信息进行了分级,可以说帮了很多金融机构的大忙,大家都在数据敏感等级划分上一筹莫展的时候,规范做出了明确的定义:
随后,规范 对个人金融信息的收集、传输、存储、展示等环节逐一做了细致的规定,数据玩家整理了部分要点如下:
需提醒大家注意,上表并非规范全部内容,只是个人感觉相对比较重要的,以及针对新的敏感信息分类而做出的分级规范要求,金融机构具体执行规范时,还需对照原文,逐一比对。
其中值得注意的是,对于C2、C3类别的系信息做出了诸多规定,影响最大的一条:不允许无资质机构收集、存储、处理(支付等特殊情况除外),这对很多大数据、金融科技企业有较大影响。拿最简单的四要素验证来说,毫无疑问,都是C2、C3级别的信息,市面上的代理机构,都具备“金融业相关资质”吗?当然这个资质目前没有明确,但是可以预计,准入和要求会逐步严格。
另外,不应留存非本机构的数据,确有需要需个人及归属机构授权。与金融机构合作的各家大数据和金融科技公司,补充协议和承诺书该签起来了。51信用卡的模式肯定是不行了,获取的都是其他金融机构的C2-C3级别数据,目前仅取得了个人授权,没有取得金融机构授权(参考某银行投诉51信用卡的邮件):
由于明确了生物特征属于C3级别,那么人脸识别和活体识别自然也在处理个人金融信息的范围内,目前相对合规的方案是本地部署,抽取特征值以后再送到第三方机构进行比对。需要提醒几家人脸识别的供应商,不可留存客户生物特征。
C3级别的信息必须加密存储,各类密码没问题,但是卡片有效期,各银行卡中心应该是没有加密存储的,包括生物特征信息。人脸识别后的照片和视频、公安采集回来的高清网纹照、OCR后的照片、券商在线双录后的视频,都加密存储了吗?
另外,终端和客户端等不可留存客户金融信息,必要的信息交易后应删除,受影响的范围很广,除了ATM、POS、自主终端,还有手机App。有的银行ATM和自助终端是可以人脸识别取款的,拍摄的人脸图片完成交易后不能留存在ATM本地,包括支付机构的人脸识别付款机具、具备人脸识别付款功能的自动贩卖机(待确认)等等。
自动贩卖机是否属于监管范围?
最重要的,App,OCR和人脸识别后,拍摄的身份证照片和人脸识别照片及视频都会留存在手机相册本地,这些信息按理说使用完交易就要删除,有几家App做到了?
最后提一下内控方面,“对存储或处理个人金融信息的系统或设备进行远程访问时,应通过专线、VPN等方式访问,个人金融信息不应在远程访问设备上留存”,我知道很多银行的生产机、堡垒机上面,全都是查数据以后留下来的中间数据,excel表到处乱放,这肯定得整改了。还有业务提数以后通过邮件发送的,发送以后中转机器必须删除,也得有相应管理办法和专人督办。最好的方式,还是业务能够直接自助查询,尽量减少中间数据流转环节。
爬虫和缓存,怎么做才合规?
既然说到数据合规,我们就再梳理一下去年影响重大的事件,从考拉征信(https://mp.weixin.qq.com/s/uLMuz1hu_SqrjtNt82FCqw)涉案情况来看,获取数据的技术手段是否爬虫并非违法的判断核心。考拉征信并未采用爬虫获取用户数据,作为个人征信准牌照机构,考拉征信的二要素核验返照接口应该来自合规的渠道,即便如此,首次查询过后,考拉征信将信息缓存下来,再次收到同一个人的核验请求时,不再向上游请求授权,直接返回本地的缓存信息。数据玩家看了很多此事件的新闻和解读,基本都描述为“非法缓存公民个人信息”,但是并没有说出到底哪里非法了,因为缓存其实是很常用的技术手段,金融机构在查询外部数据的时候,也经常采用缓存,如果有效期内再次查询,则不再向外部请求,直接使用本地的缓存数据。研究了相关法律条文以后,数据玩家认为,本次考拉征信触犯的具体法律法规为:侵犯公民个人信息罪。
侵犯公民个人信息罪犯罪客观方面表现为违反国家规定,将本单位在履行职责或者提供服务过程中获得的公民个人信息,出售或者非法提供给他人,情节严重的行为。
(1)违反国家关于公民个人信息保护的法律规定:
A.违反国家规定是指违反法律、行政法规、部门规章有关公民个人信息保护的规定;
B.违反信息控制人单方承诺或者特定行业规范承诺对个人信息加以自律性保护的,不构成本罪。
(2)实施了出售或非法提供的行为:
A.出售是指将自己掌握的公民个人信息以一定价格卖与他人,自己从中谋取利益的行为;
B.非法提供是指违反国家关于保守公民个人信息的规定,将自己履行职务过程中掌握的公民个人信息,以出售以外的方式提供他人的行为(不包括自己使用的行为)。
可以看到,与金融机构常用的缓存相比,考拉征信违法的关键点在于实施了出售或非法提供的行为,而金融机构是自己使用,并未出售或非法提供。当然,更重要的前提是“违反国家规定”,这里应该主要指网络安全法,是否获得了信息主体的授权,考拉征信服务的那几家机构是否获得了客户授权,考拉征信是否核实?答案应该很明显了,由此判断,大家不用再纠结爬虫了。大数据公司避免违法,建议从以下几方面着手排查:
谨慎选择合作方
“净网2019”重点强调:
特别是对涉及的明知是“套路贷”仍为“套路贷”研发系统平台和APP的科技公司、为“套路贷”进行网上推广的网站和平台、非法获取公民个人信息提供数据支撑的数据公司、为“套路贷”开通资金结算渠道和提供支付服务的第三方支付公司,公安机关将依法查处、严厉打击,绝不姑息。
哪怕自身数据来源合法合规,只要给套路贷提供服务,就难逃干系。有钱就是大爷的时代结束了,刀口舔血的日子也不复存在,稳健合规是今后的第一顺位,没有这个“1”,后面再多的“0”也白搭。
获取数据的方式
从侵犯公民个人信息的司法解释来看,非法获取公民个人信息的方式包括以下特点:
一是违背了信息所有人的意愿或真实意思表示;
二是信息获取者无权了解、接触相关公民个人信息;
三是信息获取的手段违反了法律禁止性规定或社会公序良俗。
具体来看,如果是爬虫,是否超出了robots.txt,并且绕过了被爬取机构的反爬措施,爬虫流量是否超过网站日均流量三分之一(《数据安全管理办法》)。如果是接口,是否合规授权。
根据最新的规范,如果是C1级别个人金融信息,是否获得了数据所有者的授权,针对C2,C3级别的个人金融信息,需要取得数据所在机构及数据所有者本人的双重授权。
获取的数据
是否包含公民个人信息
根据法释〔2017〕10号《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》第一条之规定,刑法第二百五十三条之一规定的“公民个人信息”,是指以电子或者其他方式记录的能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然人活动情况的各种信息,包括姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等。
根据《个人金融信息保护技术规范》,这个范围更大了,虽然还没立法,但是建议金融机构和金融机构的服务商都遵照更为严格的规范来执行。
获取数据后的处理方式
最合规的方式是:一次授权一次获取,完成授权所述用途后销毁。合规成本比较高,而且销毁难以自证。
相对可操作的模式是获取后缓存,后续如果自行使用没问题,如果要提供他人,去隐私后无法识别个人的没问题,未去隐私的需每次请求数据主体授权。
对于各类面向客户服务的机构来说,尤其是金融机构及云计算服务商,应当妥善保存用户的隐私数据。能够识别客户身份的关键信息应该匿名化处理,其他客户隐私信息加密存储。为了防止内部人作案,应建立一整套数据安全管理机制,事前防控,事中监控,事后追责,规定加密密钥及匿名化算法等关键信息由独立的安全合规专员保管,并且确保专员无法接触到加密后的数据,做到权责分离。同时应确保即使数据发生泄漏,通过数字水印、数据血缘追踪等技术,追踪数据泄露后的流向,追溯数据泄露的源头。而针对利用大数据相关分析技术,从匿名化的多个数据集中比对出客户的真实身份的情况,有条件的企业,可以尝试使用差分隐私保护的方法。差分隐私保护技术是指通过对源数据引入一定的噪声,扰动后的数据集新增或者减少少量记录,和改动之前返回的查询结果高度相似,即难以通过不同数据集之间的比对发现差异。
对于生物识别技术的服务提供商,除了做好以上数据安全防护外,还应在生物特征传感器部分加强数据保护,按照最新规范,如无必要,应该在交易完成时就删除相关特征,如果必需要存储的,应在传感器采集生物特征完成时就将生物特征进行加密,可以大大降低生物特征泄露的风险,或者参考上文提到的同态加密方案,参与运算的都是密文,真正明文的特征从不出现,只要保证特征比对的算法能够正常完成即可。采用生物识别技术完成客户身份认证的企业,应该针对高风险交易采用双因素甚至多因素验证,降低客户生物特征被盗取后可能产生的损失。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。