当前位置:   article > 正文

小白记录学习笔记之--大模型应用开发

大模型应用开发

一、大语言模型LLM(Large Language Model)?

大语言模型,是一种人工智能模型。例如ChatGLM、文心一言、通义千问、讯飞星火等。被人们所熟知的ChatGPT就是一个杰出的LLM的应用。

自然语言处理领域,可以更好地理解和生成文本,包括写文章、回答问题、翻译语言等。
信息检索领域,它可以改进搜索引擎,让我们更轻松地找到所需的信息。
计算机视觉领域,研究人员还在努力让计算机理解图像和文字,以改善多媒体交互。

二、大模型的能力和特点

1.大模型的能力

1.1 涌现能力
涌现能力指的是一种令人惊讶的能力,它在小型模型中不明显,但在大型模型中显著出现。涌现能力的显现就像是模型性能随着规模增大而迅速提升,超过了随机水平。
涌现能力的通用能力,就是能够应用于解决各种任务的能力。下来是三个典型的LLM涌现能力:
(1)上下文学习:通过理解上下文并生成相应输出的方式来执行任务,而无需额外的训练或参数更新。由 GPT-3 首次引入的。
(2)指令遵循:通过使用自然语言描述的多任务数据进行微调。
(3)逐步推理:通过对代码的训练获得的。解决涉及多个推理步骤的复杂任务。LLM通过采用"思维链"推理策略。
1.2 大模型成为AI应用开发的大一统基座模型
1.3 支持对话交互。如基于对话聊天的ChatGPT

2.大模型的特点

(1)涌现能力。能够处理更复杂的任务和问题
(2)上下文感知。能够理解和生成依赖于前文的文本内容
(3)巨大的规模。
(4)预训练和微调。首先对无标签数据进行预训练,然后对有标签数据通过微调来适应特定任务。
(5)多语言支持。不仅限于英语。
(6)多模态支持。包括文本、图像和声音。
(7)多领域应用。被广泛应用于文本生成、自动翻译、信息检索、摘要生成、聊天机器人、虚拟助手等多个领域。

三、常见大模型

(1)GPT系列。OpenAI 公司提出的 GPT是模型典型的生成式预训练语言模型 之一。
(2)Claude系列。由 OpenAI 离职人员创建的 Anthropic 公司开发的闭源语言大模型。Claude使用地址
(3)PaLM系列。由 Google 开发。经常应用于医疗数据。
(4)文心一言。是基于百度文心大模型的知识增强语言大模型。包括 NLP 大模型(主要为 ERNIE 系列模型)、CV 大模型、跨模态大模型、生物计算大模型、行业大模型。文心一言使用地址
(5)星火大模型。科大讯飞的语言大模型,提供了基于自然语言处理的多元能力。
(6)LLaMA模型。【开源】
(7)GLM系列。【开源】是清华大学和智谱 AI 等合作研发的开源语言大模型。
(8)通义千问。【开源】由阿里巴巴基于“通义”大模型研发。
(9)Baichuan 系列。【开源】由百川智能开发的开源可商用的语言大模型,在权威的中文和英文 benchmark 上均取得同尺寸最好的效果,其基于Transformer 解码器架构。

四、langchain

帮助开发者们快速构建基于大型语言模型的端到端应用程序或工作流程。
LangChain 框架是一个开源工具,充分利用了大型语言模型的强大能力,以便开发各种下游应用。它的目标是为各种大型语言模型应用提供通用接口,从而简化应用程序的开发流程。
具体来说,LangChain 框架可以实现数据感知和环境互动,也就是说,它能够让语言模型与其他数据来源连接,并且允许语言模型与其所处的环境进行互动。

LangChain 主要由以下 6 个核心模块组成:

  • 模型输入/输出(Model I/O):与语言模型交互的接口
  • 数据连接(Data connection):与特定应用程序的数据进行交互的接口
  • (Chains):将组件组合实现端到端应用。
  • 记忆(Memory):用于链的多次运行之间持久化应用程序状态;
  • 代理(Agents):扩展模型的推理能力。用于复杂的应用的调用序列;
  • 回调(Callbacks):扩展模型的推理能力。用于复杂的应用的调用序列;

总结

以上就是今天的学习内容,坐而论道,不如起而行之!坚持吖!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/667124
推荐阅读
相关标签
  

闽ICP备14008679号