赞
踩
讲得通俗易懂,且格局拉满!基本覆盖了自ChatGPT以来的AI比较火的事件,还多次提到强人工智能AGI(人工通用智能)。对近几年的大型语言模型( Large Language Models)进行了详细介绍。非常建议感兴趣大模型和强人工智能的读者阅读!!!
从图灵测试开始讲起,人类一直在探索用机器掌握语言智能的方法。
在过去20年,语言模型得到了广泛研究。从统计语言模型到了基于神经网络的语言模型(LSTM等)。
最近这些年,通过在大规模语料库(数据集)上对Transformer模型的预训练,提出了预训练语言模型(PLMs),在解决各种自然语言处理(NLP)任务方面显示出了很强的能力。
近一两年(从20年的GPT-3开始),发现当参数尺度超过一定水平时,这些扩展的语言模型不仅实现了显著的性能提高,而且还表现出一些小规模语言模型(如BERT)中不存在的特殊能力(如上下文学习)。为了区分不同参数尺度下的语言模型,研究界创造了术语大型语言模型(LLM),用于描述具有显著规模的PLM(例如,包含数百亿或数千亿个参数)的PLM。
近半年来,ChatGPT(基于LLM开发的强大的人工智能聊天机器人)的推出,引起了社会的广泛关注。
总的来说,语言模型LM经过了如下4个阶段:
作者在这给出了LLM出现后的3个情况:
作者提到了LLM与AGI的联系
OpenAI给出了关于实现AGI的计划。
最近一些研究《Sparks of Artificial General Intelligence: Early experiments with GPT-4》也认为GPT-4已经具备了一定的AGI能力。
作者给出了关于LLM相关文献的回顾,并在github上创建了一个项目
背景
已有的LLM仍然基于Transformer结构。
LLM涌现出的能力
LLM的关键技术
LLM模型发展脉络
LLM模型汇总
其他方面LLM模型作者写的还没有这篇公众号清楚。
不过作者在github上给出了很多相关论文地址。
数据集
模型使用的数据集分布
数据处理流程
模型结构
优化设置
构建指令数流程
指令数据集
RLHF算法(InstructGPT使用的方法)
未完待续
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。