赞
踩
笔记记录于2023.11.13-11.14基于学习资料有拓展
并按自己的思路重新整理了下章节具体如下
一、大与模型历史、现在和未来
1、大语言模型历史
为了让学习大语言模型更轻松,提前规避掉(或者解释掉)一些常见无法绕开的概念,梳理一些概念
1)大语言模型发展过程
语言模型---》语言模型+神经网络模型--》语言模型+升级版的神经网络模型(Transformer架构)--》模型涌现能力LLM
2)自然语言处理NLP和大语言模型LLM的关系
NLP(自然语言处理) 是一门研究自然语言文本处理的学科,而LLM(大语言模型)是一种使用深度学习方法来实现NLP任务的具体技术。LLM可以看作是NLP领域的一种工具,用于处理和生成自然语言文本。
3)人工智能AI、机器学习ML、深度学习DL的关系
机器学习是人工智能实现途径,深度学习是机器学习的一个方法(神经网络)发展而来
大语言模型时间段:1980s-1990s 2018-Transformer 2022-chatgpt
人工智能时间段:1943-1956(起步及概念提出) 、20世纪70年代(反思)、20世纪80年代(应用发展,出现神经网络)、20世纪90年代—2010年(平稳发展,出现深度学习),2011-至今(蓬勃发展)
2、大语言模型现在
全球最火:ChatGPT(GPT3.5和GPT4模型)
国内最火:文心一言、讯飞星火
开源最火:LlaMA、ChatGLM
值得期待:GPT-5和PaLM2
具体常见大语言模型列表
开源: LlaMA(羊驼,Meta)、Mini GPT-4(沙特)Yi-34B(零一)、ChatGLM(智谱)、baichuan(百川)、CPM-BEE(OpenBMB)
闭源:
1)国外:GPT-3(OpenAI) 、GPT-4(OpenAI)、PaLM2(google) 、Galactica (Meta)、Claude2(Anthropic)
2)国内:文心一言(百度)、通义千问(阿里)、讯飞星火(科大讯飞)
补充知识点:
1)大语言模型中的参数是许多神经元(或节点)组成,这些神经元连接成不同层级,形成神经网络。在训练期间,这些神经元之间的连接权重会进行调整,使得模型能够逐步学习如何更好地完成所需的任务。
参考:
书籍:《大规模语言模型 : 从理论到实践》
文章:https://intro-llm.github.io/
《开源大语言模型完整列表》https://portrait.gitee.com/open-source-universe/awesome-llm
3、大语言模型未来
LLM--
AIGC---》AGI
理解和生成人类语言的人工智能到像人类一样思考和学习的人工智能
二、大语言模型能力和特点
1、上下文学习--理解能力
2、指令遵循--生成能力
3、逐步推理--推理能力(思维链)
特点:
参数规模大、预训练和微调、上下文感知、多语言支持、
多模态支持、涌现能力、多领域应用、伦理和风险问题
参考:
文章:《大模型思维链(Chain-of-Thought)技术原理》https://zhuanlan.zhihu.com/p/629087587
三、大语言模型开发框架-LangChain
LangChain 的作者是 Harrison Chase,该项目自从 2022 年 10 月在 github 上开源
LangChian 作为一个大语言模型开发框架,可以将 LLM 模型(对话模型、embedding模型等)、向量数据库、交互层 Prompt、外部知识、外部代理工具整合到一起,进而可以自由构建 LLM 应用。
其他LLM开发框架:LlamaIndex
LlamaIndex——与LangChain类似但更专注于数据处理的LLM框架
参考:
《一文看懂LlamaIndex用法,为LLMs学习私有知识》https://blog.csdn.net/qq_40491305/article/details/130898052
《LangChain指南:打造LLM的垂域AI框架》https://zhuanlan.zhihu.com/p/608295910
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。