赞
踩
暑期面试导师公司实习成功后,接触了人生第一次模型实战,基于研一的基础伦理知识学习以及部分实验室实验自以为已经掌握了大部分知识和拥有了能力,直到发布的今天为止才发现自己只是学习到了冰山一角,能力知识还远远不够。
此系列为记录模型实战遇到的所有问题包括网络上比较少有的数据脱敏新方式等,还包括整个过程的心路历程,为之后的能力提升打下结实的基础。由于工作内容设计机密,本系列的文本均做了更换处理,设计到的人名以及身份证均为网上查找所得。
给定一段案件摘要,提取里面的报警人和嫌疑人及其信息
例如:(内容均已做替换,数据均为脱敏数据)
1、案件摘要:我叫陆堂诞,身份证是:450481197804234431,同学QQ号被盗,对方以同学的名义骗取我通过QQ转账500元,已核实,现被诈骗,请派警。金额:500元。
人员流提取:陆堂诞,身份证:450481197804234431;涉案人: ,身份证:
2、案件摘要:20时44分,在北门,其抓到一个之前诈骗其钱财的嫌疑人阎秀玉,身份证370206650621162,已立案,请派警。
人员流提取:报警人: ,身份证: ;涉案人:阎秀玉,身份证:370206650621162
在数据库中已经使用基于规则的方式完成了人员的抽取
整个项目由我和另一个项目一起做,基本分工为我做大模型,他做小模型。对于大小模型的定义:大模型又可以称为Foundation Model(基石)模型,模型通过亿级的语料或者图像进行知识抽取,学习进而生产了亿级参数的大模型
目前共有2453条数据
案件摘要最长的数据长度为843
最短的数据长度为4
平均长度为99(这为之后选取输入的最大长度为128作为参考标准)
人员流最长的数据长度为221
最短的数据长度为45(这里由于存在一些固定格式所以最短数据也不算短,之后的输入做了一些调整,也基本符合内容需求)
平均长度为63(在做了部分处理之后将会比63更短一些,为之后的输入设定64提供了参考)
这些数据分析也可以在ipython上面做。数据分析也将为之后的选定模型以及模型输入输出提供合理的参数
由于内容涉及机密,需要做数据脱敏,这个是主线任务的第一步也是贯穿全程的一步。
根据百度提供的答案:数据脱敏是一种保护敏感信息的技术手段,旨在在不影响数据分析结果的准确性前提下,对原始数据中的敏感字段进行处理,从而降低数据敏感度,减少个人隐私泄露的风险。数据脱敏可以分为静态脱敏和动态脱敏,具体效果上,主要是去标识化和匿名化。
常见的数据脱敏方式包括掩码屏蔽、随机化、数据替换、泛化、截断、平均值和偏移取整等。在选择数据脱敏方式时,需要根据不同的数据使用场景选择相应的方式。例如,掩码屏蔽可以用于保留部分数据,如身份证前 6 位代表地区信息的数字;随机化可以用于代替真实值,如随机生成客户姓名;数据替换可以用于使用虚拟值替换真实值,如设置一个常数,将所有手机号统一替换为 13100220002”。
此外,还有一种称为数据混淆的技术,它通过在数据中添加噪音、扰动和变形来保护隐私,同时保持数据的可用性。数据混淆可以在数据采集、传输、存储和分析等各个环节中使用,以保护敏感数据的隐私性。
数据脱敏和数据混淆是保护数据隐私的重要手段,可以帮助企业避免数据泄露和违规行为,同时满足监管合规要求,保护个人隐私。
省流:数据脱敏就是保护信息。方式有掩码屏蔽、随机化、数据替换、泛化、截断、平均值、偏移取整以及加密
先说结论,网上的方式适用于纯小白,就是单纯看数据的人。我们作为炼丹师,数据肯定不能屏蔽,不然提取出来都是******,随机化、截断之类的更不行了,那肯定会有人说加密,一开始我想的也是这个方法,但是被主管否认并一语点醒梦中人
重点:模型要学习最原始的数据,就像一个小孩子一样,学习1+1=2,其中1和2是敏感数据,于是我把他们加密成1——>a,2——>b,于是得到a+a=b,最后小孩子学会了a+a=b,我把它解密回1+1=2,以为他学会了,实际上他根本不懂,我们要用模型理解的语言来实现数据脱敏
词表会给你答案,来自hugging face的解释:
tokenizer在中文中叫做分词器,就是将句子分成一个个小的词块(token),生成一个词表,并通过模型学习到更好的表示。其中词表的大小和token的长短是很关键的因素,两者需要进行权衡,token太长,则它的表示也能更容易学习到,相应的词表也会变小;token短了,词表就会变大,相应词矩阵变大,参数也会线性变多。所以token的粒度通常分为word和char,中文则对应为词级别和字级别。Tokenizer的应用广泛,涵盖了自然语言处理、文本挖掘、机器翻译、信息检索等领域。它可以帮助构建词袋模型、词嵌入模型等,并为后续的文本处理任务提供更好的输入。
简而言之:模型这个孩子脑子里面有一个字典,我对他的输入会做一个映射,通过他的字典转为他能理解的语言
那我的输入依旧是敏感数据,他做的是他的映射,并没有实现数据脱敏。但是基于此想出来的可行的方案就是:
将他的tokenizer拿出来,我在外面做完词表转换,我的内容就变成了一段数字,这样别人也不知道我的内容是什么,然后将模型内部的tokenizer去掉,我的输入将不做任何变换直接开始模型训练。
至此,模型的数据脱敏方案就完成了,解下来会讲模型的选取以及模型训练
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。