繁依Fanyi0

这个屌丝很懒，什么也没留下！

热门标签

认知篇-初窥大模型_目前国外认知大模型

作者：繁依Fanyi0 | 2024-08-06 22:50:40

踩

目前国外认知大模型

背景

2022年底，OpenAI发布了基于GPT 3.5的ChatGPT，它能够通过理解和学习人类的语言来进行对话，不仅可以实现日常对话、知识问答、信息检索、文学创作等能力，还可以实现生成调试代码等专业技能。由于其颠覆性的性能优势，一经发布便迅速引爆整个市场，发布5天后用户就超过百万，而之前发布的GPT3用了近两年才突破100万用户。

AIGC之火在2023年彻底被引燃，一时间从传统的语义大模型到多模态大模型“百模大战”，街头巷尾大家也都是ChatGPT、AI之类的词汇，如果感觉不说出点东西，就和这个时代脱节了。

可能在此之前，你看到了很多和ChatGPT、LLM相关的文章，但是可能还是没搞清楚ChatGPT、LLM是什么，能给你带来什么。

可能你无法相信，ChatGPT所带来的大模型革命，已经影响到工作生活的方方面面。根据OpenAI,OpenResearch和宾夕法尼亚大学发布了最新的研究论文《GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models》。研究人员称，GPT会是像蒸汽机或印刷机一样的通用技术，它有可能对经济的各个方面产生深远的影响，并且对职业市场和劳动力市场产生潜在的重大影响。他们估计ChatGPT和使用该程序构建的未来应用可能影响美国大约19% 的工作岗位和他们至少50%的工作任务。与此同时,80% 的美国劳动力至少有10%的工作任务在某种程度上将受到ChatGPT的影响。因此AI已经越来越成为必备的技能，要么加入，要么被取代。

管中窥豹

基本概念 Basic Concept

说到大模型，可能有一大堆的名词在铺天盖地，LLM、ChatGPT、GPT、AIGC等等，要是不清楚这些概念，就经常看文章云里雾里的，所以我们先做简单的介绍。放心，不会晦涩。

ChatGPT

还是先从ChatGPT入手，毕竟这是大家听到最多的名词。ChatGPT(Chat Generative Pre-trained Transformer),从英文单词直接翻译过来可以看到是生成式的预训练聊天程序。从本质上看，他是OpenAI(美国的一家人工智能公司)开发的一套聊天机器人的程序。他利用了自然语言处理工具，预先采集并训练来自互联网的数据，实现聊天互动和生成回答。在使用过程中，它能够像和人交流一样，根据聊天的上下文，实现内容提取，文案编写，代码生成等功能。
GPT

了解了ChatGPT之后，还有个很相似的名称就是GPT。前面我们说过，最早推出的ChatGPT实际是基于GPT 3.5训练而来的程序，当然现在也可以使用GPT 4.0。

GPT是OpenAI开发的生成式预训练模型，你可以将它理解为”引擎”，他是ChatGPT真正实现数据采集、文本生成的核心。
LLM

LLM(Large Language Model),也就是俗称的大语言模型，也叫大模型。大模型是更大范围的概念，是一种人工智能模型，旨在理解和生成人类语言。GPT就是大语言模型的一种。

LLM特点是规模庞大，拥有数十亿到数万亿的参数，并基于深度学习模型，实现自然语言处理任务，如自然语言生成、文本分类、文本摘要、机器翻译和语音识别等。

LLM的特点

规模庞大

大模型的参数是评价性能的指标之一，一般情况下，参数规模越大，性能越强。ChatGPT的参数规模有1750亿，而到了GPT 4参数规模达到了1.75万亿，性能上也是极大的提升。
涌现能力

首先我们先来看一个关于涌现现象的说明：当一个复杂系统由很多微小个体构成，这些微小个体凑到一起，相互作用，当数量足够多时，在宏观层面上展现出微观个体无法解释的特殊现象，就可以称之为“涌现现象”。

那么大模型是否有这样的现象呢？答案是有。

我们发现当模型参数达到一定程度，大模型不需要修改参数或者微调，就能够处理好任务，这便是大模型的”涌现能力”。

计算和存储

由于大模型的参数数量和计算复杂度都非常大，因此需要足够的存储和计算资源。因此在2023年，我们发现各科技厂商，包含Meta，OpenAI，Microsoft，Tesla纷纷布局购买高端显卡，英伟达真的是赚翻了。
预训练和调优

大模型的数据往往来源于互联网，通用型的大模型通常可以实现常规的交互。但是对于特定领域的问题，可能就不够专业了。因此可能需要对特定领域进行不断的数据训练和调优，使其能够不断增强性能。
应用场景

在探索通用人工智能的多种可能发展方向中，多模态大模型（MLLM）已成为当前备受关注的重要方向。我们发现大模型不光可以实现语义的交互，也可以实现更多模态的反馈和交互，比如视频，音频，图片等。

语义大模型 Semantic Large Model

文案生成

文案生成是大模型生成式语义模型的应用之一。可以根据给出的需求，格式，其他附属条件实现文案的输出。

内容检索

大语言模型整合和训练了互联网的数据，因此可以实现互联网的内容检索，更加高效。现在各大搜索引擎公司的引擎也集成了大模型，搜索更加高效和精准。像微软的new bing就是非常典型的代表。

文章续写

大模型可以根据给出的关键词，或者前文实现内容续写。让他读完金庸的小说，你是不是也可以写几本武侠呢？

多语言翻译

大语言模型熟悉主流的语言，可以让他帮你实现翻译。

文本摘要

大模型也可以实现文本的摘要，可以输入指定的内容。当然可以询问他梗概，也可以针对特定的内容询问他。像不像老师抽查作业。

多模态 Multimodality

随着 GPT-4 对图文理解的冲击，更多模态的理解成为了学术界的热点话题。从语义大模型，逐渐发展到对语音，图片，视频等的处理。当前比较主流的是文生图，图生图，语音生产，视频生产。

文生图：顾名思义，用户可以进行描述相应的场景或者内容，模型生成相应的图片。

写实风格

动漫风格

3D风格

自然风光

图生图：根据输入的图片可以实现微调，二次创作，图片整合，边缘检测，换脸，图片扩展等操作。下图为使用SimpleSDXL实现以图生图的示例。

图生图

语音生产：可以通过你提供的纯净人声，快速“克隆”一个你的声音模型。适合原唱转换，视频变声恶搞等趣味创作。比如前段时间爆火的AI孙燕姿。
视频生产： 根据输入描述的场景生成视频。

现状与展望

通过前面的介绍，我们发现LLM已经能够实现很多的创作和辅助，接着我们了解下现阶段大模型的现状。

常见大模型 Common Large Models

国内主流的大模型有：

1. 百度文心大模型：基于飞桨深度学习平台和文心知识增强大模型，持续从海量数据和大规模知识中融合学习，具备知识增强、检索增强和对话增强的技术特色。

2. 阿里通义千问大模型：阿里云推出的超大规模的语言模型，功能包括多轮对话、文案创作、逻辑推理、多模态理解、多语言支持。

3. 科大讯飞AI学习机：基于讯飞AI超感知交互技术，以及全场景学习理念，实现软硬件完美融合，为孩子带来沉浸式、场景化学习体验。

国外主流的大模型有：

4. GPT-3（OpenAI）： Generative Pre-trained Transformer 3（GPT-3）是最著名的LLM之一，拥有1750亿个参数。该模型在文本生成、翻译和其他任务中表现出显著的性能，在全球范围内引起了热烈的反响，目前OpenAI已经迭代到了GPT-4版本

5. BERT（谷歌）：Bidirectional Encoder Representations from Transformers（BERT）是另一个流行的LLM，对NLP研究产生了重大影响。该模型使用双向方法从一个词的左右两边捕捉上下文，使得各种任务的性能提高，如情感分析和命名实体识别。

6. T5（谷歌）： 文本到文本转换器（T5）是一个LLM，该模型将所有的NLP任务限定为文本到文本问题，简化了模型适应不同任务的过程。T5在总结、翻译和问题回答等任务中表现出强大的性能。

现状与挑战 Present Situation and Challenges

在全球范围内，大模型的发展正在迅速推进。但是仍然有很多技术问题和阻力。主要包含以下方面：

1. 数据来源

大模型的质量除了模型自身之外，最主要的就是训练数据，直接影响了大模型是否是有害的。通常大模型采集的数据来源于互联网，包含公开数据集，行业数据，社交网络等，筛选高质量数据和剔除有害数据是有挑战的。

2. 隐私安全

大模型训练的数据来源于社交网络，可能存在个人信息泄露的风险，因此在数据处理过程中，需要对敏感数据，隐私数据进行保密处理。

3. 法律规范

大模型的风靡已经是大势所趋，但是在各个国家推行时，需要遵守各国家的法律规范。特别是很多的国家对大模型等还没有比较成熟完善的法律体系，很容易出现侵权，犯罪行为。

4. 人工智能伦理问题

大模型的推行，可能由于训练数据集或者算法导致出现人工智能偏见或者歧视的问题。

未来展望

虽然目前大模型已经出现百花齐放的场景，但目前仍旧处于初级阶段。从宏观角度来看，会包含三个方向：

1. 基础设施

大模型的计算的存储离不开计算和存储资源，因此与大模型相关的高端GPU未来仍旧持续紧俏。于此同时，云算力等平台将会逐渐成为中小型企业、个人开发者的首选。

2. 模型研发

大模型的核心引擎是模型，因此会有更多优秀的模型涌现，会更加高效和稳定。

3. 落地场景

对于个人开发者或者普通人而言，更多的需要关注落地场景。

目前大模型已经兼具了自然语言生成、文本分类、文本摘要、机器翻译、语音识别、图像处理等功能，因此我们可以将其作为辅助工具，提高生产效率。

可以利用大模型实现自我提升，例如实现高效知识检索，英语口语对话功能。

工作层面，可以实现文档生成，PPT生成，文案编写，内容续写等。作为开发人员可以实现代码生成，补全，检查等功能。

总结

大模型的时代已经来临，不论你愿不愿意相信。他可能会取代某些职业，但是也会创造一些新的职业。随着未来产业发展模式的成熟，将诞生丰富的大模型产业链，全社会都将从大模型中受益。所以，你准备好了吗？

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/939694