赞
踩
最近一直被大语言模型刷屏。本文是周末技术分享会的提纲,总结了一些自然语言模型相关的重要技术,以及各个主流公司的研究方向和进展,和大家共同学习。
目前的大模型基本都是Transformer及其变种。本部分将介绍Transformer基础模型及其主要变种。
Transformer是一种基于自注意力机制的模型,由Encoder和Decoder两部分组成。
下图是精典论文《Attention is all you need》中展示的模型结构图,左边是Encoder,右边是Decoder,
在Transformer中,Encoder将输入序列映射到一个高维空间中,Decoder则将这个高维空间中的向量映射回输出序列。
在Encoder中,所有的词一起输入一起计算;在Decoder中像RNN一样一个一个词输入,将已经出现的词计算得到的Q与Encoder计算得到的K,V进行计算,经过了全部Decoder层再经过FC+Softmax得到结果之后再把结果当做Decoder的输入再走一遍整个流程直到得到END标签。
Transformer既有Encoder又有Decoder,主要因为一开始处理的是翻译任务,需要先理解整句的意思,再逐字生成翻译结果。
Encoder和Decoder的主要区别包括:
Google 的几篇文章从模型架构,算法优化,模型规模,应用场景,以及大语言模型指导机器人同步推理;对话场景中的其它应用(搜索、翻译、计算器)结合等方面进行了广泛探索,且基本都是开源的。
Meta 更偏重于模型的应用场景,在模型规模,减少标注开销,提升质量等方面进行了研究,尤其是其发布的 LLaMA 目前已经成为各个经济适用模型的基础模型,可能很快成为DIY的主流框架。本部分除了 Meta公司的研究,还介绍了两个 LLaMA 的衍生产品。
OpenAI 的 GPT-4 无疑是目前最好的大语言模型,从GPT到GPT-4一路走来,ChatGPT爆发,可能是我们这个时代最重要的事件之一。可能是为了保持领先,OpenAI 逐渐转换策略,不再公开具体技术,常被讽 CloseAI。
最初坚持使用单向Transformer构造大模型,现在看的确很有眼光,ChatGPT比GPT-3便宜10倍的价值,抢先占领市场,这个策略可能也是合理的。
而AI、语言模型发展到今天,也是互联网数据,软硬件,深度学习,强化学习各个领域近年高速发展和开源的结果。个人认为:无论谁都不太可能一家独大。
2022年11月,斯坦福大学大模型中心对全球30个主流大模型进行了全方位的评测,GLM-130B 是亚洲唯一入选的大模型。 它准确性和恶意性指标上与 GPT-3 175B (davinci) 接近或持平。
ChatGLM是GLM公开的单机版本,基本是开包即用,又是中英文双语训练的模型,对中文用户比较友好。
DeepMind 围绕提升模型性能展开研究,其研究为后继的模型精减和优化,和更广阔的使用场景奠定了基础。
本月微软发布的两篇文章(2023年03月),相对偏具体的应用场景,以及语言模型和其它(如图片)数据相结合实现的应用效果,尽管把文本和图本映射到同一嵌入空间;通过调整提示调用ChatGPT和图像修改工具,并不是首次提出,但是实现的效果还是很炫酷有趣的。
还有一些大语言模型也有着里程碑的意义,比如:MT-NLG 530B,当时首次把模型扩展到 500+B的量级,示范了训练单体超大模型的方法;又如 BLOOM 是一个开放的模型,任何人都可以从Hugging Face网站免费下载它进行研究。它们也常常在其它文章中用作模型对比的基线。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。