小桥流水78

这个屌丝很懒，什么也没留下！

热门标签

深度解析大数据之殇_阐述数字信息资源长尾分布与大型商业数据库利用之间的矛盾

作者：小桥流水78 | 2024-07-21 23:57:30

踩

阐述数字信息资源长尾分布与大型商业数据库利用之间的矛盾

在过去的几年里，中国的大型数据公司已经迅猛发展，它们正处在命运的关键时刻。

毫无疑问，“大数据”作为一个技术概念，有着光明的前景。它是人工智能的基石，也是未来世界的“石油”。但作为一家企业，大数据在中国正达到一个关键的转折点。

从业者们都很焦虑。对大众而言，自2019年3月以来围绕“大数据”的激烈丑闻似乎是监管收紧的迹象-大数据的黑色产业链在“315”派对上被集中曝光。之后，对号称拥有8亿人真实信息的乔达科技进行了调查。但对于中国大数据行业的从业者来说，这并不是突如其来的事情，因为中国的大数据行业一直都有良好的嗅觉。

自2017年底以来，中央网络信息办公室，工业和信息化部，公安部和国家标准委员会开始密集合作，针对国内大数据残酷增长的各种混乱行动采取各种行动行业。 2018年，相关工作组多次对微信，淘宝等“国家级”应用进行隐私保护评估，并提出整改意见。与此同时，重要的垂直行业和地方监管机构也大大增加了访谈的频率。 2019年2月，中国银行业监督管理委员会和中国保险监督管理委员会就收集信息的应用问题与银行高管进行了面谈;上海网通办公室继续在管辖范围内谈论申请，而北京公安厅也在“净2019”运营。非法抓取数据“作为补救的重点。

2019年1月，由中央网络信息办公室、工业和信息化部、公安部牵头的多个机构开始采取特别措施，处理非法收集数据和信息的行为，被业界称为“历史上最具活力的行动”。此后，相关部门也开始制定“大众化应用的基本业务功能和必要的信息标准”。3月，工作组在微信上直接发布了公众号“应用程序个人信息举报”，并直接接受了用户的侵权举报。4月份，对30多个申请提出了整改要求。

在平西与来自大型互联网公司和“大数据公司”数据部门的近10位从业人员的接触中，他们普遍认为315晚的“捕捉典型”和“聪明数据”得到了纠正，更像是一系列的行动。

“事实上，你可以感觉到所有的环境都不同于两年前发生的事情。美国的Facebook和欧洲的GDPR都有问题。(“一般数据保护条例”，简称GDPR，是“欧洲联盟条例-平西”)。过去，我觉得这一切都不会影响我们的国内业务，但从去年开始，我便转过头来，发觉国内的管制也变得更严格了。“杭州一家电子商务公司数据算法部门的一名高级成员告诉Ping West Products。

然而，极度焦虑的从业人员似乎仍未意识到，监管层面变化的背后，实质是广大家庭用户数据隐私意识的觉醒。

“我们最近的政策和监管研究以及行动节奏在很大程度上受到公众隐私保护意识的影响。”第三所公安局网络安全法研究中心附近的人向PingWest透露。他们正在参与许多部委共同推动的个人信息保护法律法规的研究。 3月推出的“应用个人信息报道”微信公众投诉平台，可以帮助立法者更直接地感受到公众的态度。新华社的报道介绍了公共账户处理投诉的方式：“关于用户真实姓名的信息，工作组逐一与记者沟通。”

显然，在监管机构和用户眼中，“大数据”作为一项在中国的业务，现在存在的问题必须在各个方面加以纠正。

谁的数据？谁拿的？

2018年4月23日晚，北京市公安厅公布了调查“乔达资料”案的详细情况。这也接近平西在与一些从业人员讨论时的判断：一家从乔达数据中抓取简历数据的公司向警方报告了乔达。经过几个月的调查和取证，北京警方将其作为“网络2019年”行动的典型例子，并逮捕了该公司的实际控制人。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jraQFAUL-1603781404320)(http://www.csbit.cn/upload/images/2019/5/20190506093943654.jpg)]

据警方介绍：“通过大量使用代理IP地址、伪造设备识别等技术手段，犯罪嫌疑人绕过了公司的服务器保护策略，窃取了大量存储在服务器上的用户数据。经初步鉴定后，技术公司利用技术手段恶意窃取被举报公司的用户数据，并将其用于自己的业务。“

换句话说，乔达的问题首先在于其过度的“爬行动物”行为。

“爬虫”是指开发人员设计一套程序，根据一定的规则自动捕获互联网上的海量信息。一位曾在乔达数据公司短暂工作的员工告诉Ping West，他们的团队有一些来自主流招聘平台的员工，他们熟悉前一家公司的系统，能够更高效地在平台上抓取简历。做足够的爬行之前，反爬虫措施到位。据他说，这种抓取招聘网站简历的方式，是所谓“简历大数据”公司的常态。

从乔达那里收集数据有很多类似的方法，比如上海的电子城数据。今年3月，艾城获得人民币8000万圆的再融资。

总部设在武汉的“简·宣”也专注于公开简历的爬行。其官方网站显示，“产品可以通过自然语义处理技术抓取简历。”从本质上讲，它也是通过爬虫技术抓取几个主要的招聘网站。该公司去年完成了数千万美元的A轮融资。

此外，还有许多创业公司从事类似的业务，其中大多数处于天使圈阶段。

“从这个角度来看，乔达数据似乎被视为一种模式。或者因为它太大了。”该员工说。

此外，虽然公告没有提及，但据平西游记了解，乔达数据还涉及到购买“非法获得的数据”。这名员工告诉屏西，他曾多次参与该团队在一些业务领域的投标活动，即几家“大数据公司”竞相争夺同一个服务客户，并试图为他们提供数据分析和其他服务。在投标之前，他们倾向于从黑市上购买大量的数据。

“Qiao Da本身有很多接口来获得简历，并且没有将大部分精力集中在碰撞库这样的实践上。但那些数据经纪人不是。他们每天都运行一个数据库。他们有各种各样的数据。”

“崩溃库”是指利用泄露的用户信息，试图批量破解其他站点上的用户帐户。乔达离职的员工表示，在特定的投标前，他们将购买与投标相匹配的特定类型的数据，以提供更多维度的交叉验证，以使他们的数据能力在投标时显得更强大。

根据此前多家媒体的报道，提供敏感数据的“数据经纪人”在黑暗网络中活跃着大量数据，而这条链大致“黑客通过攻击获取数据，然后将其出售给网络上的一些数据经纪人”。该数据机构重新安排了几次，并将其出售给了那些需要它进行精确营销的公司。“一位从事数据掩埋点的工程师说。

“那么，当你看到最后公司花了多少钱购买这些高度私密的实际数据时，价格实际上翻了一番，数据只是冰山一角，隐藏和获得的数据，隐私和敏感度更高“。

随着“精准营销”和“个性推送”的普及，对这类业务的需求急剧增加，一些“明星公司”也开始做类似的业务。最典型的是数据大厅，一家在新三板上市的数据公司。

2018年7月，新华社报道，在山东省破获的“特大侵犯公民个人信息案件”中，数据厅“8个月内每天传输公民个人信息1.3亿多。累积传输数据被压缩。它大约是4000g”，这些数据包括了40多个信息元素，如手机号码、互联网基站代码，以及“记录手机用户的具体在线行为，甚至一些数据也可以直接进入公民的个人账户主页。以产品的形式销售这些数据，是大唐等“大数据公司”的重要经营形式和收入来源。

据乔达员工称，乔达数据本身实际上起到了“数据中介”的作用。该公司首席执行官高调表示：“简历是最有价值的自然人数据。通过大数据和人工智能技术开发的认知引擎，乔达数据可以快速恢复互联网上自然人的清晰肖像。”本质上，这部分业务是销售“真实数据”，这与大多数“数据中介”的地下业务非常相似。

随着大数据概念的兴起，中国诞生了一大批自成一体的大数据创业企业，为大量缺乏数据采集和分析能力的中小型互联网企业提供数据服务。用这个来积累他们自己的数据。长尾效应使他们的数据库规模很大，他们倾向于从其他来源购买数据，并以与数据相同的方式出售收集的数据。这些以BAT为代表的大数据公司，以及拥有大量用户数据的公司，已经成为这些数据的主要目的地。

据PingWest称，近年来自称为“大数据公司”的现有员工和前员工的数量，包括百分点和相同的盾牌，已经证实他们一般从“黑市”购买数据。在一些竞标之前更常见。

事实上，这种非法访问，在这些大数据公司的PPT中，已经变成了以“外部购买”的名义出现的模棱两可的现象。“事实上，业内人士知道这意味着什么，在哪里可以找到啊，最大的数据不是在蝙蝠手中，就是人们不用卖给你这笔钱，或者是在政府手中，也不会卖给你，你能买到的唯一有用的数据就是那些渠道。”

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-19oRYFgG-1603781404326)(http://www.csbit.cn/upload/images/2019/5/20180515173520_9766_meitu_13.jpg)]

这背后的数据归属显然是一个严重的问题。黑市上的数据经纪人一直是警方严厉攻击的目标。他们非法出售公民个人信息的事实更加明显。同时，爬行于爬虫类的资料近年来产生了越来越多的争议，管理者也逐渐确立了在此过程中应对的逻辑。

2015年，新浪微博在法庭上起诉工作场所社交应用程序，指控后者在合作协议之外在微博平台上抓取大量用户数据，并在合作关系终止后拒绝删除这些数据。经过近两年的审判，该案终于在2017年初判决，并被判处“不正当竞争”。这一案件被许多律师视为一种标准的惩罚。其中，从其他平台抓取用户数据有明确的“三个原则”，然后通过国内的各种处罚-当两个平台要在数据上进行共享和合作时，数据提供者首先要征得自己用户的同意。然后，当数据采集者收集数据时，应授权数据提供者提供数据，并且需要再次通知用户，并再次获得用户的授权。即“用户授权+平台授权+用户再授权”三个原则。

按照这一逻辑，2017年，段平起诉百度抓取其网站数据，百度输了；2019年3月，天津滨海新区人民法院就微信起诉斗银未经授权访问微信用户数据一案作出判决，要求斗银立即停止向多盾提供微信/QQ开放平台的授权登录服务。它停止使用之前获得的微信用户头像和昵称，并决定继续上诉。

虽然没有直接限制爬行动物行为的法律法规，但在这些情况下，最常用的规定包括反不正当竞争法。第12条第2款规定，“经营者不得使用技术手段…破坏其他经营者合法提供的网络产品或服务的正常运作。”在涉及刑事犯罪时，经常违反犯罪行为。 “刑法”第285条规定的“非法入侵计算机系统”。

爬行动物问题也成为美国互联网界争论的焦点，其中经常援引1986年“计算机欺诈和滥用法”(CFAA)。CFAA规定，在未经授权和未经授权的情况下故意访问计算机并从受保护的计算机获取信息是犯罪行为。严重的案件甚至可能是刑事犯罪。

然而，2017年著名的hiQ对Linkedin判决显示出与大多数国内判决不同的观点。LinkedIn指责初创公司hiQ在网站数据攀升时违反了其使用条款，但hiQ认为它的所有公共数据都在攀升。最后，加州法庭“站在爬行动物的一边”，认为linkedin已经爬出的数据是网站上的“开放数据”，而linkedin的单方面条款和事后发布的警告不足以引发“计算机欺诈和滥用行为”。相反，LinkedIn被怀疑利用市场领先地位的不公平竞争。法院要求它解除对hiQ爬行动物实施的临时禁令和ip封锁。

在分析这些爬虫案例时，马丁的阅读笔记(一个研究个人信息数据保护的官方账户)认为，美国正在“慢慢突破合同法思维和CFAA的限制，开始更多地考虑公共利益的优先顺序”。

但仔细观察这些案例就会发现，无论是在国内还是在美国，关于平台之间数据所有权的争议都受到了更多的关注。但是，经常有意或无意地回避一个更重要的问题：在平台之间竞争数据所有权的背后，实际生成数据的用户对数据所有权拥有什么权利？

要回答这个问题，您需要了解Internet公司如何获取用户的数据。

用户知情权与“低隐私社会”之争

“当你使用我们的应用程序时，如果你需要的话，我们可以恢复你在屏幕上所做的一切。”美国在线数据部驻上海的负责人对平西表示。“你先点击什么地方，然后点击什么地方，你在屏幕上上下滑动的速度，你停留在哪种产品上的时间长度，我们都在背景中知道。”这相当于把所有的动作录影带都给你，然后再寄给我们。”

当然，这些应用程序并没有真正给你一个屏幕，来实现这种“可怕”的数据采集，依赖于“埋藏点”技术。也就是说，在特定位置添加相应的代码，收集用户在这些位置的操作行为，然后返回到后端进行收集和分析。这种技术长期以来一直是互联网公司的标准，现在常常以SDK(SoftwareDevelopmentKit)的形式添加到应用程序中。在使用应用程序的过程中，应用程序会在不知情的情况下收集用户。

“除了收集用户记录的关键词和阅读行为外，Jinri Toutiao的SDK还将通过访问第三方社交产品帐户来分析您的性别，并通过获取有关您的模式的信息来分析您的年龄。还有一些地理信息将用于拓展您的工作场所和生活空间等等。”高级算法架构师金日图修在公开分享中说，“497”。

随着对精确建议的需求增加，收集数据的需求也在增加。 “在一天结束时，数据收集已经变得越来越隐蔽，它几乎已成为一个全面的埋葬点。在收集之前使用它是很有用的，”O2O工作人员说。在这种想法下，许多对用户非常敏感的数据信息已成为收集信息的目标。据熟悉Ping King产品的两位知情人士称，今天的头条新闻已经开始收集用户安装的应用程序列表，用于分析用户特征。而这种许可在其他大型工厂的数据收集中“不敢触及”。

对于那些无法掩埋自己的网站或低成本性能的中小型企业，他们通常选择使用由近年来诞生的“大数据公司”提供的第三方软件开发工具包（Software Development Toolkit）。

由于这些位置和sdk行为是由互联网应用程序本身决定的，因此缺乏技术知识的用户很难依次进行监督，也无法理解他们所收集的信息。更常见的是，是应用程序商店分发这些应用程序来审核应用程序包。其中，由于苹果封闭的生态系统，ios系统应用程序只能通过苹果应用程序商店发布。苹果对应用程序的转让权限有更严格的规定，ios系统与这些应用程序共享的基础数据较少。然而，作为一个开源的android系统，可以相对地获得更多的基础数据权限。

“例如，相同的应用程序(Android版本)倾向于更准确地获取用户的位置数据，因为底层的Wi-Fi列表数据可用，我会分析Wi-Fi属于哪个存储。使用GPS可以实现更精确的定位，但iOS的Wi-Fi列表权限不向第三方应用程序开放。”一位高级应用开发者说。

而且，国内各种应用商店也比较混杂，在审计标准上也不尽相同。这些因素使许多Android应用程序在访问和数据收集方面变得贪婪。并尽可能获取用户行为数据，也成为第三方大数据公司竞争的焦点。他们启动SDK需要不断增加的权限.

据熟悉Talking Data相关业务的人士介绍，所提供的SDK能够收集与用户蓝牙配对的其他移动设备的信息，并收集Android用户设备上的安装程序列表，可用于分析用户偏好一方面。另一方面，它还计算各种应用程序的市场份额，这是其数据分析业务的重要组成部分。

类似的模式在为数据采集和分析提供SDK的公司中很常见。关注移动互联网行业的人们经常会看到由Twitter聊天数据、可视化和个人Twitter等公司发布的行业共享数据报告，这些报告基于他们广泛提供的SDK。

近年来，这些公司开始专注于“未埋藏的sdk可视化”技术，允许购买服务的公司通过直观的可视化操作页面完成数据采集——“用户不需要太多的代码知识”。

但它也引起了一些技术人员的质疑。“所谓不埋点，其实就是把所有的点都埋了，可以先收。”杭州一家电子商务初创公司的一名从事数据分析的工程师告诉Ping West。“此外，我认为这个愚蠢的产品和宣传的一个更危险的问题是，那些不理解或不注意这些第三方SDK的用户，一方面，你不知道你的平台上的哪些数据是与这些第三方公司共享的，另一方面，你又不知道你的平台上的哪些数据是与这些第三方公司共享的，您甚至不知道您所接触的权限和数据。“

每个提供SDK服务的大数据公司都将“占有”一些收集到的数据，从而丰富自己的数据资源，然后将这些资源整合到所谓的数据分析平台中。卖给客户。换句话说，这些数据不仅仅是针对收集者自己的平台，而是作为一种商品出售的。

大数据公司为此提出了一个新概念 - “第二方数据”：“指的是公司和合作伙伴共享的数据，如何协商所有权的分配。使用数据时，我们必须遵循这两个利益”。

但在这个过程中，用户是完全缺席的。这些数据采集过程中的许多都没有得到用户同意的授权，甚至没有明确通知用户。最近，人们经常怀疑应用程序“监控”自己，并指责输入方法泄露了他们的隐私和其他新闻，这是由于用户的无知。

2016年，由于过度收集用户数据，谷歌Play将重点放在了使用talkingdata sdk的许多应用程序上。TalkingData后来表示这是“沟通上的误解”，后来为google Play设计了一个改进版本。据知情人士透露，访问国内主要安卓应用市场的版本仍然被认为是非常私密的。就像第三方公司提供sdk服务一样，它实际上也有这种现象。“绝大多数国产安卓用户应用程序都来自这些应用市场。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7N1j3Ok0-1603781404328)(http://www.csbit.cn/upload/images/2019/5/1495790276794_meitu_11.jpg)]

对于大型数据公司的这些数据收集行为，一个常见的解释是，这些数据已经“不敏感”。但是，目前在整个行业中还没有统一的脱敏标准，也没有相关的详细规定。是否脱敏已经完全成为大数据公司的一种意识，这取决于公司的“底线”和价值观。

同时，随着各类企业对精确营销和个性化推送效果的要求越来越高，对“用户肖像”的极端痴迷客观上更接近于用户的真实身份。事实上谁的数据服务更有吸引力。在这种商业动机和脱敏安全考虑之间存在着明显的矛盾。因此，出现了许多漏洞并加以利用。

例如，在许多第三方大数据公司的当前数据库中，在脱敏后，仍将为用户数据分配他们自己的独立ID。但是很多应用程序实际上是在同时收集用户的设备号，主要是手机的Mac地址和机器的IMEI号。以前的全称Media Access Control是移动电话网卡的ID，用于定义网络设备的位置。后者是国际移动设备身份，相当于机器的身份证。两者都是独特的。虽然第三方公司将其分配的独立ID描述为一种删除用户真实身份的方式，但很明显，只要两者匹配，ID本身仍然是真实的消息。

在目前的电信实名制中，只有一步可以使身份证直接成为真实的人：当两个数据对应于电话号码数据时，用户的真实身份将被完全暴露出来。

在今年的315聚会上曝光的“探子”就是用来完成这最后一步的。根据中央电视台的调查，该设备在发现用户手机信号后，可以识别用户手机的mac地址和mai，并利用设备背后的“大数据技术”，将设备号码转换成手机号码。

随着用户收集的数据种类越来越多，用户的隐私问题已成为一个难题。是否“拼写”用户的真实信息完全取决于掌握这些谜题的大数据公司。

“目前，许多案件都集中在澄清平台间的竞争数据，但深入探讨用户对个人数据的权利问题是不可避免的。”接近第三公共安全研究所的人士透露。

在过去的一年中，各公司过度收集用户数据已成为补救的焦点。据新华社报道，中央网络信息办公室，工业和信息化部，公安部和市场监督总局设立了一个专门的个人信息收集和使用工作组。今年年初的法律法规。 “截至4月16日，报告的报告超过3,480个，涉及1,300多个。该应用程序已向其运营商发送了一份整改通知，其中包含大量用户和严重问题的30个应用程序。”

这些行为就像是一种缓冲，其背后是有关部门对个人数据权利的思考。

在个人数据权利方面，据知情人士称，当局一直在密切研究去年5月生效的欧盟通用数据保护条例，即全球最严格的数据保护法。研究人员仍然不同意它过于严格的监管。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xPzJrUrM-1603781404330)(http://www.csbit.cn/upload/images/2019/5/timg%20%281%29_meitu_2.jpg)]

例如，GDPR指的是用户的数据可移植性，要求Facebook和Google等主要网络将用户的数据“返回”给用户，用户可以跨平台直接控制他们的所有数据。“这太激进了”

“事实上，过去放松监管有两个原因，一个是监管跟不上行业的技术发展，另一个原因是监管过于严格，不足以抑制创新。”这些人说，这种趋势将继续下去。

再举一个例子，GDPR简介中直接引入的“匿名化”概念规定，应从可识别的个人信息中删除个人数据。同时，个人数据列在账单，位置数据，IP地址，MAC中。地址都是个人数据。必须在匿名化中删除这些数据。

然而，相比之下，2019年4月10日，公安部第三研究所和其他组织联合发布的“互联网个人信息安全保护指南”在提及个人信息保护时，避免了使用“匿名化”。更激进的概念。 “我们的概念与欧盟GDPR的匿名化有所不同。最后，我们只是直接引用网络安全法中的概念。”在本指南中，对个人信息的保护要求的描述是“处理不识别特定个人且无法恢复”。

”总而言之，可以看出有两种方法可以确保用户隐私绝对是第一位的，其次是数据只在用户手中是毫无价值的，所以我们仍然需要鼓励企业遵守数据处理。”上述人士透露。

最高人民法院司法案例研究所4月份的一篇文章也揭示了这一观点。文章指出，解决用户个人数据保护问题的关键是“在对数据产品进行处理和处理后，将包含用户个人信息的原始数据与衍生数据区分开来，并分别判断其所有权”。文章认为，原始数据属于用户，而衍生数据属于运营公司。这既能合理平衡双方利益，又能“鼓励网络企业继续进行技术创新和产能创新，促进社会整体财富增长的需要”。

基于这种野蛮的数据收集和共享，这些客观的“第一次开发和重新监管”环境已经导致了许多互联网公司的大部分基本商业模式。此外，人工智能开发中最关键的算法模型也极其依赖于这些数据。

海银资本创始人王煜全认为，在人工智能的竞争中，重点是数据。随着越来越多的企业将数据用于机器培训，人类正进入一个低隐私的社会，这已成为不可逆转的趋势。

到目前为止，大数据从业者对“隐私”的理解与用户不同。在保护隐私方面，大数据产业通常会“不再与其他平台共享数据”。

在这种情况下，监管机构将不可避免地面临两难境地。一种可能的方法是首先让用户和大数据公司回到他们可以通信的状态。例如，这些大数据公司需要向用户解释每个数据收集行为的目的，用普通人能够理解的语言来解释，获得用户的正式许可，并让用户以某种方式分享使用他们的数据所产生的好处。同时，在难以在法律层面明确确认数据所有权的情况下，可以通过更严厉的事后惩罚机制增加过度收集用户信息和贩运用户信息的成本。它还为用户提供了某种遗忘的权利，使他们在事件发生后具有更强的防御能力。

在大数据时代，数据的确是一种极具潜力的新型石油，但如果在用户权益与行业发展之间没有正确的平衡，这种新的石油也会带来巨大的污染。

中安威士：保护核心数据，捍卫网络安全

来源：网络收集

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小桥流水78/article/detail/862678