赞
踩
Generative Pre trained Transformer(生成式预训练变换模型)的缩写。其中ChatGPT是一种基于深度学习的自然语言处理模型的扩展,称为大语言模型。LLMS能够通过学习大量文本数据并推断文本中单词之间的关系,随着计算能力和序列窗口长度的增加,大语言模型在进2年得到迅速发展。
随着输入数据集和参数空间的增加,大语言模型到了96层的能力也随之增加。GPT与BERT模型都是致命的NLP模型,是基于Transfoormer技术的编码器或解码器结构的模型。GPT-1只有12个transforme层,而到了GPT-3则增加到了96层。
InstructGPT/GPT3.5(ChatGPT的前身)与GPT-3的主要区别在于,新加入被称为RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学)。这一训练范式增强了人类对模型输出结果的调节,并且对结果进行了更具理解性的排序。
图1:ChatGPT技术整体架构
图2:ChatGPT技术生态
ChatGPT的训练过程:
SS处理:即句子相似性处理(Sentence Similarity),用户输入的信息可能存在错
Full Search:即全文搜索处理,ChatGPT 是一个自然语言+搜索引擎集成的架构,通过 Ei 处理得到的数据就是全文搜索的输入数据,比如 EI 提取出 NER=观沧海,SS=,TC=文学,那么此步就可以去搜索文学索引中的《面朝大海,春暖花开》, 得到想要的答案。
TG处理:即文本生成(Text Generation),上一步搜索的结果可能有多条数据,那么那一条最符合用户需求呢?则通过 RM 模型来进行选取,选取后生成对应的文本内容。
QA处理:即问题解答(Question Answering),把上一步生成的答案进一步转
TAMER(Training an Agent Manually via Evaluative Reinforcement,评估式强化人工训练代理)框架。该框架将人类标记者引入到Agents的学习循环中,通过人类向Agents提供奖励反馈(即指导Agents进行训练),从而快速达到训练任务目标。
Transformer 模型的核心思想是自注意力机制(self attention)——能注意输入序列的不同位置以计算该序列的表示的能力。Transformer 创建了多层自注意力层(self attetion layers)组成的堆栈, 一个transformer 模型用自注意力层而非RNNs或CNNs来处理变长的输入。这种通用架构有一系列的优势。
1、它不对数据间的时间/空间关系做任何假设。这是处理一组对象(objects)的理想选择。
2、层输出可以并行计算,而非像 RNN 这样的序列计算。
3、远距离项可以影响彼此的输出,而无需经过许多 RNN 步骤或卷积层(例如,参见场景记忆 Transformer(Scene Memory Transformer))。
4、它能学习长距离的依赖。
图3:基于Transformer所诞生的大语言模型的4个分支。
目前的深度学习框架有谷哥的TensorFlow框架,Meta的PyTorch框架,百度的PaddlePaddl框架,华为的MindSpore框架,微软的CNTK框架,旷世的天元框架等。
图4:国内外深度学习框架
目前各种大模型已经相继发布,主要有百度文心大模型,谷歌PaLM大模型,华为盘古大模型,OpenAI GPT3.5大模型,科大讯飞1+N认知智能大模型,昆仑万维天工3.5大模型,网易玉严大模型,阿里巴巴通义千问大模型,商汤日日新大模型,腾讯混元大模型等。
图5:国内常见的大语言模型
基于AIGC的应用目前已经大量出现比如AI绘画方面盗梦师,midjourney,文心一格;AI写作方面奕写;AI音乐方面DeepMusic;AI聊天方面ChatGPT等。
图7:国内常见的大语言模型应用
PyTorch 是一款开源的机器学习框架,在计算机视觉和自然语言处理等方面均获得了商业和数学成功。PyTorch 团队提醒称,在2022年12月25日至12月30日期间,安装了PyTorch-nightly的用户应确保其系统未遭攻陷。发出此次警告是因为在这期间于Python的官方第三方软件包PyPI注册表上出现了“torchtriton”依赖。PyTorch 团队指出,“请立即卸载它和torchtriton,并使用2022年12月30日之后发布的最新nightly二进制。”PyPI 上的该恶意 “torchtriton”依赖和在PyTorch-nightly仓库上发布的官方库名称一样。但当提取Python生态系统中的依赖时,PyPI一般会按照优先顺序导致恶意包而非PyTorch的合法包被拉取。PyTorch 团队披露称,“由于PyPI 索引会采取优先级,该恶意包而非官方仓库中的包被安装。这种设计使得有人可以注册与第三方索引中名称一样的包,而pip会默认安装恶意版本。”
据 cvedetails 所示,从2019年至2023年TensorFlow总共产生了428个漏洞。其中
LangChain 基于 OPENAI 的 GPT3 等大语言模型设计一系列便于集成到实际应用中的接口,降低了在实际场景中部署大语言模型的难度。研究人员发现提示词混合Python代码的模版函数可以远程执行任意python代码。
攻击者通过输入特定的攻击指令(特定Prompt)来引导语言模型输出负向的内容的一种攻击思路。真实案例如下:
数据和指令直接的界限可能越来越模糊。在这种形式下,传统的针对关键词做黑白名单,污点分析,语义分析等防御方式都会失效,基于这些原理的WAF, RASP等安全设备也会失去保护效果。可能只有在ChatGPT模型处理层面出现类似SQL 预编译的改进,才能很好的防止这种攻击。 GPT4实现了对多模态处理的支持,文字,语音,视频,都是其处理的目标。恶意载荷可能以各种形式潜藏在互联网中,一张隐写了恶意数据的图片,一个字幕或者画面中插入了恶意指令的视频,都有可能影响到Chatgpt的解释执行。
提示泄漏是一种提示注入的形式,其中模型被要求输出自己的提示。
越狱(Jailbreaking)是一种提示注入攻击技术,用于绕过语言模型(LLM)的安全和审查功能。
ChatGPT也被诱导规划抢劫方案,甚至给了抢劫道具购买连接。
@haus_cole 通过暗示直接回答如何“热线汽车(绕过汽车点火开关)”是对研究有帮助的。在这种情况下,ChatGPT 倾向于回答用户的提示。
所谓的数据投毒攻击,是指在数据收集阶段,或者数据预处理阶段实施的攻击。比如标签反转,我们要训练一个识别图片的数字的模型。我们将一部分图片中数字为1的图片,标签转换的0,这样可以使得最终训练的模型的准确率大幅下降。数据加噪,给训练集的数据加上一些噪声。比如添加一个高斯噪声。如果噪声合适的话,添加的噪声不会被发现,但是却可以影响最终训练出来的模型。
逃逸攻击,创建一个特殊的数据集,打上特定的标签,使得这个特殊的数据集中的数据,可以通过模型的预测。比如,在训练识别数字的模型的训练集中,添加一些小狗的照片,并将其标签设置为1,那么最终训练出来的结果将会把小狗判断为1。
模型投毒攻击是指,在模型的训练阶段,对模型的更新或者梯度,做一些改变。一般发生在分布式机器学习的模型中。使得全局模型发生某种程度的偏移。当然,这里的攻击又可分为拜占庭攻击和定向投毒。
拜占庭攻击的目的是,发送恶意的更新,使得模型的训练不能收敛。
定向投毒指,通过精心的裁剪更新,使得全局模型收敛到攻击者想要的最优解。比如,可以将小狗判断为数字等。使得最后的模型不可用,或者说存在某些特别的后门。
模型萃取攻击(Model Extraction Attacks),也称为模型提取攻击,是一种攻击者通过循环发送数据并查看对应的响应结果,来推测机器学习模型的参数或功能,从而复制出一个功能相似甚至完全相同的机器学习模型的攻击方法。
这种攻击方法由Tramèr等人在2016年提出,并发表于信息安全顶级会议Usenix上,并分别展示了针对函数映射类模型(LR、SVM、神经网络)、决策树模型和不输出置信度的模型的提取方式。
从AIGC应用在模型训练中可能会被注入恶意的数据,导致最终用来输出的模型存在内容安全问题,比如恶意丑化的政治人物,输出不符合当地法律法规的内容等。
评测结果发现97%的应用已经部署内容安全机制,能够对中文提示词和违规内容进行拦截过滤,但通过提示词调整(例如,采用英文提示词或其他描述方式),99%的应用仍然会生成违规内容。此外,评测数据显示传统的AI内容识别方式对AIGC内容识别率大幅度降低,尤其在AI写作内容的真实性和AI图像二次创作后的违规识别上表现更为突出。
3月23日,ChatGPT首次遭遇了重大个人数据泄露。不少推特网友爆料,在ChatGPT网页左侧的聊天记录栏中出现了他人的聊天记录内容,一些用户甚至可以看到活跃用户的姓名、电子邮件地址、支付地址、信用卡号等信息。那些把ChatGPT当作情感陪护的用户,不知道对ChatGPT倾诉了多少隐私,怕是目前仍在瑟瑟发抖。
OpenAI发布一份报告显示,由于Redis的开源库bug导致了ChatGPT发生故障和数据泄露,造成部分用户可以看见其他用户的个人信息和聊天查询内容。仅仅十天左右,意大利数据保护局Garante以涉嫌违反隐私规则为由,暂时禁止了ChatGPT,并对相关事项展开调查。
基于数据安全的考虑,目前的一个研究方向是通过合成数据来代替现有的真实数据。此方案的一个最大好处是模拟真实数据的场景和结构通过机器合成所需要的训练数据,避免使用业务中的真实数据。这样对于前面提到的数据泄露和数据污染来讲都将得到根本性的解决。
目前针对AIGC领域的安全产品还比较少。以往的大部分安全厂商都是基于AI相关的技术来解决传统的安全问题,比如利用AI的深度学习能力来训练恶意样本,加强恶意样本的检测能力;利用AI语义分析能力来识别恶意攻击流量,提高web应用防火墙等产品的规则识别能力;通过监控机器学习算法的输入和输出,寻求“与竞争对手机器学习攻击技术一致的异常活动”等。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。