赞
踩
大模型,即大语言模型(LLM),指大规模语言模型(LLM)是指包含数千亿(或更多)参数的Transformer语言模型。这些模型是在大规模文本数据上进行训练的,例如GPT-3,PaLM和LLaMA。LLM展现了理解自然语言和解决复杂任务(通过文本生成)的强大能力。目前,LLM以Transformer为主要架构,Transformer相对于传统的RNN架构,所有token可以同时捕捉长距离依赖关系,其中大量运算为矩阵可以更好的并行处理序列0中数据,在处理自然语言文本时会表现出很好的性能。
自ChatGPT发布以来,AI相关人员开始不断注意到GPT模型,或是说大模型。不断有新的团队推出他们自己的大模型结构,大模型得以万花齐放蓬勃发展。
国外大模型主要由以下部分公司推出更新:
在深度学习中,多模态是指训练人工智能模型来处理和发现不同类型数据之间的关系——通常是图像、视频、音频和文本。通过结合不同的数据类型,模型可以更普遍地理解其环境,因为某些线索仅存在于某些数据中。想象一下情绪识别的任务。它不仅仅是看一张人脸(视觉模态)。一个人的声音(音频模态)的音调和音高编码了大量关于他们情绪状态的信息,这些信息可能无法通过他们的面部表情看到,即使他们经常是同步的。
Google
LaMDA:LaMDA是谷歌团队推出,用于对话的大语言模型,其模型有137B的参数量,同时使用1.56万亿个公开对话数据作为训练数据。它的开发是为了克服传统聊天机器人的局限性,传统聊天机器人在对话中往往遵循狭窄的、预定义的路径。LaMDA参与曲折对话的能力可以为技术和新类别的应用程序提供更自然的交互方式。
PaLM:PaLM是一个具有5400亿个参数的语言模型,能够处理各种任务,包括复杂的学习和推理。它在语言和推理测试中可以胜过最先进的语言模型和人类。PaLM系统采用了少样本学习的方法,可以从少量的数据中泛化,近似模拟人类学习和应用知识来解决新问题的方式。
Deepmind
Gopher:DeepMind的语言模型Gopher在阅读理解、人文、伦理、STEM和医药等领域展示了统一的改善。在事实检测上也有统一的改善。在常识推理、逻辑推理和数学上看到了轻微的改善,以及在几个任务上有轻微的下降。总的趋势为,在较为依赖推理的任务上改善少,在知识密集的任务上改善大。。Gopher拥有2800亿个参数可供调整,使其比OpenAI的GPT-3更大,后者只有1750亿个参数。
Chinchilla:Chinchilla使用与Gopher相同的计算预算,但只有700亿个参数和四倍的数据。在许多下游评估任务中,它胜过了Gopher、GPT-3、Jurassic-1和Megatron-Turing NLG等模型。它在微调和推理方面使用的计算资源明显较少,极大地促进了下游应用的使用。
Sparrow:Sparrow对话机器人,最大的特色在于直接对用户的反馈进行学习,那样就不需要为对话各种琐碎细节去设计不同的模块跟任务,把决策权进一步交给模型,让模型自己去学,而对于那些机器人可能学不好的地方,通过预先定义的规则去构造对应的训练数据,让模型自己去补全。
Meta
OPT-IML:OPT-IML是基于Meta的OPT模型的预训练语言模型,拥有1750亿个参数。OPT-IML经过微调,以在自然语言任务(如问答、文本摘要和翻译)中获得更好的性能,使用了约2000个自然语言任务进行训练。它在训练过程中更高效,并且比OpenAI的GPT-3具有更低的CO₂排放量。
LLaMA-2:LLaMA模型,由 Meta AI 发布的一个开放且高效的大型基础语言模型,共有 7B、13B、33B、65B四种版本。LLaMA 的性能非常优异:具有 13 B参数的 LLaMA 模型「在大多数基准上」可以胜过 GPT-3(175B),而且可以在单块 V100 GPU 上运行;而最大的 65B参数的 LLaMA 模型可以媲美谷歌的 Chinchilla-70B 和 PaLM-540B。LLaMA基于Hoffmann的研究理论,最佳性能模型并非最大模型,而是基于更多数据上的较小模型。因此LLaMA基于更多更广泛的公开可用训练集,同时参数量远低于其他市面的大模型。LLaMA-2对比与LLaMA-1,训练的token数据从1.0T增加到2.0T,最大模型参数量从65B增长到70B,在性能上对比LLaMA各项测试中,平均提高8个百分点。
国内的部分公司及其大模型:
随着大模型的发展,模型参数量越来越大,模型是很难调参的,参数太多、内存过大难以容纳、不容易收敛、所需数据要求过大。因此对于大模型的使用,需要采用微调的方法:Prompt-Tuning 、 Adapter-Tuning 、 LoRA等。
Prompt-Tuning:固定预训练参数,在输入层处理数据时,对每个任务添加一个或多个embedding,并且微调模型时训练这些embedding,而不是全参数微调。
例如,传统情感分析二分类任务中,[CLS] I like the Disney films very much. [SEP],对于这样的语句,通过大模型后获得 [CLS]表征,再喂入新增加的MLP分类器进行二分类。
Prompt-Tuning方法则是,通过人工定义等方法,生成与给定句子相关的一个含有[MASK]标记的模板。例如It was [MASK](it was词元的向量则被视为embedding初始化向量).,并拼接到原始的文本中,获得Prompt-Tuning的输入:[CLS] I like the Disney films very much. [SEP] It was [MASK]. [SEP]。将其喂入BERT模型中,并复用预训练好的MLM分类器(在huggingface中为BertForMaskedLM),即可直接得到[MASK]预测的各个token的概率分布,当[MASK]为good或great等积极词汇,情感分析结果为positive类,反之亦然。
Adapter-Tuning :谷歌研究团队提出,在Transformer架构中,插入Adapter结构,再冻结原本的所有模型参数,只对新插入的Adapter结构进行微调。每个Adapter模块由两个前馈子层组成,第一个前馈子层将Transformer块的输出作为输入,经过down-project层将原始输入维度降低,通过低维度特征来限制Adapter模块的参数量,通常情况下中间层低维度会远小于输入层高纬度。在输出阶段,通过第二个前馈子层还原输入维度,经过up-project层,将低纬度特征重新映射回高纬度特征。
LoRA:上述两种方式都存在相应弊端,Adapter 方法由于在模型中插入模块,增加了模型的深度从而额外增加了模型推理的延时。Prompt方法 较难训练,同时减少了模型的可用序列长度,往往效率和质量不可兼得,效果差于 full-finetuning。
Low-Rank Adaption(LoRA),设计了如下所示的结构,在涉及到矩阵相乘的模块,引入 A、B 这样两个低秩矩阵模块去模拟 Full-finetune 的过程,相当于只对语言模型中起关键作用的低秩本质维度进行更新。同时与Adapter类似,将矩阵秩降维,再升维,达到降低参数量的效果。
如果要将训练处理时序数据为主的大模型,需要大量的数据积累。同时时序数据同文本数据和图像数据相比,数据量少、专业性强且难以泛用、还会涉及隐私问题,获取大量的可应用于大模型的时序数据难度较大。另外,时序数据往往更专注与垂直领域,由于不同领域的时间序列数据存在重大差异,以单一领域的时序数据作为大模型的训练数据,是难以在其他领域的下游任务中达到很好的效果,不具备很强的泛化能力,需要从头开始构建和训练针对医疗、工业等不同领域的各种模型。
因此要使大模型使用于时序数据,可行的方法是设计相应机制对时间序列进行适配,使其适用于现有的NLP或CV大模型,即LLM+微调时间序列数据做下游任务。阿里团队于2023年2月的论文,使用LM大模型+微调时间序列进行下游任务:
阻碍时间序列数据大模型的开发主要是缺乏大量的合适训练数据,那么我们就利用预先训练好的语言或CV大模型,冻结模型中自注意层和前馈层。这种冻结后的结构被称为冻结预训练TransformerFPT),再对模型进行微调,力求在时间序列分类、长短期时间序列预测、imputation(归因)、异常检测、小样本学习、零样本预测上的获得SOTA。
具体步骤如下:
其中,亚马逊在2023年6月发布一篇论文,利用大模型进行时间序列预测,这篇论文主要面向金融领域进行时序数据预测,金融领域的时序预测建模需要面临更复杂的挑战,更精准的预测率,论文强调以下三点:
在这篇论文中,对时序数据预处理方式:将时间序列数据通过离散化的方式转化为符号表示,将涨幅多少转变为文本符号,例如,D2表示跌2%以内,U1表示涨1%以内。同时,大模型处理金融领域数据需要时刻关注金融资讯,论文中利用GPT-4进行信息生成,生成的信息包括公司的整体介绍、公司未来规划、可能影响股价上涨或下降。针对这些讯息,GPT-4再进行摘要生成和提取关键字,作为后续模型输入。
在模型微调阶段,将GPT-4提取的摘要,作为模型的prompt输入,模型输入数据包括:离散化的时间序列符号、GPT-4生成的公司信息和新闻摘要等。同时论文还进一步采用Instruction Tuning方式,将任务转换为文本,用文本内容为目标微调模型。
在2023年8月份也有一片论文,利用大语言模型进行时间序列预测工作,其重心仍然是输入与微调。
时序数据具备最关键的特征,时间。该论文将每一个独立变量的每一个分段记为token,将第一个数据的时间戳引入token中。对于其他数据的时间,需要再引进position embedding;同时引入总体embedding,用于记录patch之间的相关信息。因此每个patch需要经过一位卷积层的token+position embedding+temporal embedding。
[1]A Survey of Large Language Models
[2]The Power of Scale for Parameter-Efficient Prompt Tuning
[3]Parameter-Efficient Transfer Learning for NLP
[4]LoRA: Low-Rank Adaptation of Large Language Models
[5]LLM4TS: Two-Stage Fine-Tuning for Time-Series Forecasting with Pre-Trained LLMs
[6]TEST: Text Prototype Aligned Embedding to Activate LLM’s Ability for Time Series
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。