当前位置:   article > 正文

【NLP】伦敦大学、MetaAI、StabilityAI联合发布70页综述,盘点大模型的16大挑战

challengesandapplicationsoflargelanguagemodels

3cf9d2694f517df250aeaae8aef49c97.jpeg夕小瑶科技说 原创
作者 | 智商掉了一地、Python自从各大 AIGC 横空出世之后,大型语言模型(LLM)相关的研究与应用也层出不穷,尽管这些技术能够为我们提供更智能、精准和便利的信息和服务,但也带来了一系列的难题和风险。

最近有人探索了聊天机器人、计算生物学、计算机编程、创造性工作、知识工作、法律、医学、推理、机器人技术和社会科学等领域,总结了尚未解决的问题,并且也对这些存在的问题提出了一些可行的解决措施。

此外,还有很多方面的挑战都亟待解决,这些问题都需要更深入地去思考与交流,我们一起来看看吧~

论文题目:
Challenges and Applications of Large Language Models

论文链接:
https://arxiv.org/abs/2307.10169


LLM 所面对的挑战

如图 1 所示,LLM 面对的挑战主要可以分为三大类:“设计”、“行为”和“科学”,其中,LLM 的“设计”与部署前的决策有关,在部署过程中会出现“行为”的挑战,而“科学”的挑战则阻碍了研究 LLM 的学术进步。

18ad7e9abc56cb0f2f0b2d165e01b9e5.png
▲图1 LLM 的挑战概述

挑战 1:难以理解的数据集

由于各团队在扩展预训练的数据量,随着现如今预训练数据集规模的扩大,个人难以完整阅读和检查整个文档的质量。

如表 1 所示,近年来预训练数据集变得不可控,因为它们的大小和多样性迅速增长,而并非所有的数据集都是公开可用的。

e3934d719f669607ac3e8a0caf01f06d.png
▲表1 所选择的预训练数据集概述
  1. 近似重复数据会影响模型性能,而过滤这些数据更加困难,通常在大多数数据收集流程中采用最小哈希算法等方法进行过滤。通过去重处理,可以显著降低模型中重复序列的数量;

  2. 对于多任务微调的预训练模型,需要确定适当的任务混合比例,通过使用任务说明追加到每个输入-输出对中的方式进行指令微调是一种常见的策略。然而,如何平衡任务数据集仍然不清楚。;

  3. 模仿闭源模型的数据收集趋势,但这些模型无法完全模拟专有模型的内容,存在巨大的能力差距。

  4. 训练集中包含与评估测试集相关或相似的数据将导致性能指标被夸大,因为模型可能会记住测试数据并在测试中简单地重复它们。此外,预训练数据集中可能存在未检测到的个人身份信息(如手机号码和电子邮件地址),这可能导致隐私泄露

挑战 2:对分词器的依赖

大语言模型的训练和运行通常依赖于特定的分词器,这可能对其性能和适应性产生影响。

分词(Tokenization)是将一系列单词或字符拆分为较小单元(即 token)的过程,以便输入模型。其中一种常见的分词方法是子词分词(subword tokenization),将单词分解为子词或 WordPieces。这样做的目的是有效处理模型词汇表中的罕见和未登录词汇,同时限制每个序列的 token 数量,以减少计算复杂性。子词分词器通常通过无监督训练来构建词汇表,并可选地使用合并规则以提高对训练数据的编码效率。

然而,分词的必要性也存在一些缺点

  1. 不同语言传达相同信息所需的 token 数量差异很大,这可能导致基于 token 数量计费的 API 语言模型在许多受支持的语言中过度收费且结果不佳,特别是在这些 API 在本身就较不可负担的地区使用。

  2. 分词器和预训练语料库之间的不一致性可能导致错误 token,进而导致模型行为异常。

  3. 不同语言的分词方案也面临一些挑战,特别是对于非空格分隔的语言如中文或日文。现有的子词分词方法主要是贪婪算法,试图以尽可能高效的方式编码语言,从而导致对较多语言共享的子词的偏好,不利于低资源语言的 token。

  4. 此外,分词器会带来计算负担、语言依赖性、处理新词、固定词汇表大小、信息丢失和人类可解释性等多个挑战。

99e01246d1dcc7e1c09ae23d28949e3a.png
▲图2 依赖分词的典型缺点

如图 2 所示为依赖分词的典型缺点,其中,分词器训练步骤涉及到复杂的计算,如对整个预训练数据集进行多次扫描,并引入了对其的依赖,这在多语言环境下可能会变得特别棘手。此外,语言模型的嵌入层 E 和输出层 W 涉及词汇表大小,比如在 T5 模型中约占模型参数总数的 66% 左右。

针对这个挑战,子词级别的输入则提供了词汇大小和序列长度之间的良好平衡。此外,Byte-Pair Encoding (BPE)和 WordPiece 是常用的子词分词算法。字节级输入是子词分词的一种替代方法,可以与子词分词器结合使用或定义一个有限的词汇表来编码所有可能的序列。还有一些研究提出了基于字节级输入的分词方法,在性能方面与基于子词的模型相媲美。

挑战 3:高昂的预训练成本

大型语言模型的训练需要大量的计算资源和时间,这可能会对其广泛应用产生限制。

训练 LLM 的主要消耗是在预训练过程中,需要数十万个计算小时、数百万元的成本,以及相当于数个普通美国家庭年度能源消耗量的能量。而近期提出的缩放定律认为,模型性能随着模型大小、数据集大小和训练中使用的计算量呈幂律关系,这种不可持续的情况被称为“红色 AI”。

为了解决这些问题,有两条研究路线:

  1. 计算最优训练方法:通过学习经验性的“缩放定律”,以实现在给定计算预算下最大化训练效率;

  2. 预训练目标:如图 3 所示,利用各种目标进行自监督训练,其中不同的预训练目标会影响模型的数据效率和所需迭代次数。

044c426c5dd94359496b656b0f75260e.png
▲图3 自监督数据构建通过预训练目标实现

此外,还有其他研究方向,如并行策略、层叠模型、递增批量大小和最新权重平均等,这些方法在提高模型性能和减少计算成本方面具有一定效果。

  • 预训练目标的选择包括语言建模、掩码语言建模、前缀语言建模、连续区间损坏和混合去噪等。

  • 并行策略是解决训练和推理中巨大 LLM 规模的常见方法,其中模型并行(model parallelism)和流程并行(pipeline parallelism)是两种常见的策略。

挑战 4:微调开销

大语言模型的微调通常需要额外的资源和时间,这可能对其快速部署产生影响。

预训练 LLM 时,使用大量且多样化的文本数据可能导致模型在特定任务数据集上无法准确捕捉分布特性。为解决这个问题,使用微调将预训练模型参数适应到特定领域或任务的较小数据集上。这对适应下游任务非常有效,通过直接微调预训练模型或添加可学习层到输出表示中实现。

然而,这也存在一定的问题:

  1. 拥有数十亿个参数的语言模型需要大量内存来存储模型参数、模型激活以及梯度和相应统计信息;

  2. 内存限制导致无法在单个设备上完成全模型微调,需要使用大型计算集群;

  3. 全模型微调在特定任务上效果好,但需要为每个任务存储和加载单独的微调模型,计算和内存开销较大

近期的研究提出一些方法来降低内存需求,但时间复杂度仍然是个挑战,目前适应 LLM 模型的计算基础设施限制了在小设备上的应用。

为了适应特定数据集或领域,可以使用参数高效的微调方法(PEFT),如图 4 所示,这是仅更新模型参数的一小部分的方法。

  • 一种方法是使用 Adapters,在 Transformer 架构中添加额外的学习层,这些层在微调过程中进行更新,而保持网络的其余部分不变。

  • 另一种方法是仅更新模型的偏置项进行微调,这部分参数很小。有几个框架可以将 Adapter 集成到语言模型微调中。

1112daadf41f6a7c28895bfa100f7748.png
▲图4 针对特定下游任务微调 LLM

对更大的模型,引入如 prefix-tuning 和 prompt-tuning 方法,通过在输入中添加可学习的 token 嵌入(soft prompts),在微调阶段学习,而模型的其余参数保持不变。这些 soft prompts 的参数较少,存储更加有效。此外,还提出了适用于只具有黑盒 API 访问权限的模型的替代方法。

此外还有其他方法,如缩放层激活、内存高效的零阶优化器、低秩自适应等。这些方法改进了内存复杂度,但时间复杂度仍然是一个挑战。即使使用参数高效的微调方法,微调 LLM 仍需要计算完整的前向或反向传播。这限制了在较小设备上进行个性化等潜在应用的可能性。

挑战 5:高延迟推理

大语言模型可能需要更长的时间来处理输入并生成输出,这可能对其实时应用产生影响。

根据先前研究,导致 LLM 推理延迟高的两个原因是:

  1. 由于推理过程一次只处理一个 token,导致并行能力较低;

  2. 由于模型大小和解码过程中的临时状态(如注意力键和值向量)的缘故,内存占用量较大。

作者还讨论了 Transformer 中注意力机制的二次扩展性,以及用于解决这些挑战的技术,包括减少内存占用(大小和/或带宽)、加速特定计算操作。一些加速注意力机制计算的方法包括硬件感知的修改和注意力机制的高级次二次近似。

  • 量化是一种通过降低权重和激活值的计算精度来减少内存占用和/或增加模型吞吐量的后训练技术。

  • 修剪是一种辅助的后训练技术,用于删除给定模型的部分权重,而不会降低性能。

  • 混合专家架构通过同时使用一组专家模块和一个路由器网络来降低推理时间。

  • 级联是使用不同大小的模型对不同查询进行处理的策略,以平衡准确性和计算成本。

  • 解码策略也会对推理的计算成本产生重大影响。

各种框架和库已被设计用于训练和运行大规模语言模型,通过有效实现、降低内存要求或利用分布式计算策略来解决计算成本的挑战。

挑战 6:有限的上下文长度

大语言模型的处理范围可能受到其上下文长度的限制,这可能影响其理解和生成长文本的能力。

作者在这里重点讨论了解决自然语言处理任务的一些关键问题:

  1. 处理情感识别等任务时,需要考虑更大的上下文。对于包括小说、学术论文等在内的文本段落,仅仅分析几个词语或句子是不够的,必须考虑整个输入的内容。同样,在会议记录中,对某个评论的解读可能会因为之前的讨论而转向讽刺或严肃。

  2. 作者评估了一些长上下文模型在处理长文本时的性能,发现许多开源模型虽然声称在处理长上下文时表现良好,但实际上性能严重下降

  3. 限制上下文长度对处理长输入的影响,并介绍了三个允许更长上下文长度的方法:有效的注意机制、位置嵌入方案和不需要注意力和位置嵌入的Transformer替代方法。

  • 有效的注意机制:设计更高效的注意机制来处理长输入,如使用线性嵌套注意机制、等价于点积注意力但占用更少资源的注意机制、Transient Global注意机制、CoLT5和Synthesizer等。

  • 长度推广:作者讨论了位置嵌入的方式,包括绝对位置嵌入和相对位置嵌入,并介绍了RoPE和相对位置偏差等方法。这些方法可以提供更好的长度推广能力,但仍存在一定的挑战。

  • Transformer 的替代方法:作者介绍了使用状态空间模型、卷积和循环神经网络作为 LLM 的替代方案,这些方法在计算效率上具有优势,但仍能保持相对较好的性能。

挑战 7:提示脆弱性

大语言模型的回复可能受到提示内容和格式的显著影响,这可能对其稳定性和可预测性产生影响。

提示的句法(例如长度、空白、示例的顺序)和语义(例如措辞、示例的选择、指令)会显著影响模型的输出提示的变化也可能会导致输出发生巨大变化,即提示的脆弱性(Prompt Brittleness)现象,如图 5 所示为提示方法的比较。

509cef3eb3846464cb49c94f92c49679.png
▲图5 所选择的提示方法概览

单轮提示方法:通过各种方式改进输入提示以获得更好的单次回答。其中,上下文学习(In-Context Learning)在各种自然语言处理任务中展现出竞争力的结果。这指的是 LLM 通过推理能够仅依靠训练数据的串联来学习新任务,而不需要调整 LLM 的内部工作方式。

  • 提示跟随(Instruction-Following)需要对模型进行监督微调,主要通过在输入提示中添加任务描述性指令来实现。

  • 思维链(Chain-of-Thought)是一种通过一系列中间推理步骤构建少样本提示的技术,最终导致最终输出。

  • 模仿(Impersonation)是一种技术,它要求模型在回答特定领域问题时假装成领域专家。研究发现,提示模型在模仿领域专家时对特定领域问题的回答更准确。

多轮提示方法:通过迭代地连接提示和其答案来生成输出。方法包括 Ask Me Anything、Self-consistency、Least-to-Most、Scratchpad、ReAct 等。

  • 自动推理与工具使用(ART)是一种自动生成多步推理提示的方法,包括对外部工具的符号调用,如搜索和代码生成或执行。

  • 控制生成(Controlled Generation)是一种直接修改推理过程的方法,而不是修改输入文本来控制模型输出。在 LLM 中,可以使用无分类器引导采样、提示修改等方法来实现控制生成。

总之,提示的设计和改进对于 LLM 的输出结果具有重要影响,需要进行大量实验来优化提示,并且还有很多提问方法和控制生成方法需要进一步研究和实践。

挑战 8:产生幻觉

大语言模型可能生成与实际情况不符的内容,这可能对其可信度和实用性产生影响。

近年来,像 ChatGPT 这样的对话服务的受欢迎,表明 LLM 在日常问答中的应用越来越广泛。然而,这些模型的准确性变得更加重要,它们常常出现幻觉,即生成不准确的信息,由于文本的流利性,这些错误很难被检测到。图 6 提供了一个例子。

42d3be928509bc8f61ef185ef9691024.png
▲图6 GPT-4 幻觉的例子

为了区分不同类型的幻觉,我们可以根据模型提供的源内容,例如提示信息、示例或引用的上下文等进行判断。通过这样的判断,我们可以区分本质幻觉和外在幻觉:本质幻觉指生成的文本在逻辑上与源内容相矛盾,而外在幻觉是指我们无法通过源内容验证输出的正确性,因为源内容提供的信息不足以评估输出结果,因此结果是不确定的。尽管外在幻觉并不一定是错误的,但由于无法确认提供的信息的真实性,它在一定程度上仍然不可取。在图 7 中展示了本质幻觉和外在幻觉的例子。

ad97481b1ed4f2b50d4ddbd72d519654.png
▲图7 内在幻觉和外在幻觉的说明

传统的解码算法会在每个采样步骤引入均匀随机性,从而导致幻觉的产生。Dziri 等人观察到,回答生成中多样性的增加与幻觉的出现存在正相关关系。引入随机性和多样性的原因是,生成最有可能的序列通常会导致与人类交流相比较乏味和不自然的文本。Zhang 等人将这个挑战描述为多样性和质量之间的一种权衡。

尽管这个挑战在很大程度上尚未解决,但一些方法,如多样性束搜索(Uncertainty-Aware Beam Search)和自信解码(Confident Decoding)试图在解码过程中减少幻觉的产生。

  • 不确定性感知束搜索方法基于一个观察结果,即预测的不确定性越高,生成幻觉的可能性越大。因此,在束搜索中引入了惩罚项来惩罚解码过程中的高预测不确定性。

  • 自信解码的方法则假设编码器-解码器模型产生幻觉的原因是在解码时未能正确关注源内容。他们提出了一个基于注意力的置信度评分来衡量模型对源内容的关注程度,并使用变分贝叶斯训练过程确保模型生成高置信度的答案。

挑战 9:行为不匹配

大语言模型的行为可能与人类的期望和意图不匹配,这可能对其人机交互的效果产生影响。

对齐问题旨在确保 LLM 的行为与人类的价值、目标和期望一致,避免产生意外或负面后果。如图 8 所示,现有工作可分为两类方法:检测误对齐行为对齐模型行为的方法。

28dcaf82dd7f1c3bcfc3d2417cddf61e.png
▲图8 对齐的分类

预训练与人类反馈(PHF)是一种在预训练阶段引入人类反馈的概念,研究者比较了五种方法,包括过滤、条件训练、非似然、奖励加权回归和优势加权回归。他们发现条件训练在训练数据上实现了最好的平衡,但可能存在隐私泄露和在某些应用中使 LLM 变得不安全的风险

有人认为,尽管 LLM 是通过预测文本语料库中的下一个词来训练的,但通过这样做,它们能够推断和表示出文本作者的目标、信念或意图等主动属性。他们引用了支持这一观点的 LLM 模拟交际意图、信念和欲望的文献证据。如果这个假设是正确的,对齐问题就更加重要,并可能面临额外的挑战。从安全的角度来看,这种主动行为可能带来问题,因为模型可能会有错误的信念、恶意意图,甚至追求不对齐的目标。需要进一步研究来检测和防止这种行为,以确保 LLM 的安全应用。

总而言之,对齐问题是确保 LLM 的行为与人类价值、目标和期望一致的挑战。需要更多研究在检测误对齐行为和对齐模型行为的方面,以确保 LLM 的安全应用。

挑战 10:过时的知识

大语言模型的知识可能随着时间的推移而变得过时,这可能对其应对新情况和新知识的能力产生影响。

在预训练过程中,LLM 所学到的实际信息可能存在不准确或过时的情况(比如无法及时考虑到政治领导层的变动)。然而,重新训练模型需要耗费昂贵的成本,并且在微调过程中很难“遗忘”旧的事实并学习新的事实。

现有的模型编辑技术在更新孤立的知识方面效果有限,这限制了它们在真实世界应用中的适用性。这些应用场景要求仅更新一个错误或过时信息,并且相关信息必须准确地反映这个更新,而不影响其他无关信息。

3a453f1cfaa7ec9d0dd3375abe9bee8e.png
▲图9 过时的知识及处理方法

如图 9 所示,目前解决这个问题的两种常见方法是:

  • 模型编辑技术:通过修改模型参数或使用外部后编辑模型来改变模型的行为;

  • 检索增强语言模型:利用非参数化的知识源在推理过程中更新以反映底层知识的更新状态。

挑战 11:脆弱的评估

评估大语言模型的性能可能受到各种因素的影响,这可能导致其评估结果的不稳定和不可靠。

虽然一个模型可能能够轻松解决一个基准问题,却可能在问题稍微变化(甚至只是修改提示)后得到完全相反的结果。与人类不同,我们不容易直观地判断一个语言模型是否具备解决其他相关问题的能力。这导致了对语言模型综合评估的困难,因为需要严格的基准来确定各种输入的弱点。评估过程容易出现脆弱问题,稍微修改基准提示或评估协议可能会导致完全不同的结果

为了增强基准评估的鲁棒性,全面的基准集试图在所有场景和任务上进行标准化评估,并确保在尽可能多的能力和风险方面进行广泛覆盖。越来越多的模型也开始在人类设计的测试中进行基准化评估,如 SAT、LSAT 和数学竞赛等。

对于传统的基准测试来说,模型对于问题提示或评估方法的选择可能非常敏感。通常情况下,提示的变化也没有进行规范处理,因此模型可能对这种变化非常敏感,比如提示是否添加了“请回答是或否”。Jain 等人发现,规模更大、经过引导微调的模型更容易对提示的微小变化敏感

挑战 12:基于静态、人工编写的真实值的评估

如果评估基于固定和人工编写的标准,可能无法全面、公正地评估大语言模型的性能。

LLM 评估通常依赖于人工编写的“ground truth”文本,但在需要专业知识的领域,这样的文本往往稀缺。随着模型在某些领域超越人类在基准测试中的表现,我们无法获得与“人类水平”性能的比较。随着模型能力的提高,旧的基准数据集会变得过时,不再提供有用的信号。社区需要不断适应新的静态基准,同时减少对动态评估的重视,比如对模型输出的人工评估。

为了应对这些问题,一种方法是定期向 BIG-Bench 基准添加新任务,包括进行程序化评估的任务。以下两条研究工作线路使得动态评估在不需要人的情况下成为可能。

  • LLM生成的评估任务:随着 LLM 的能力提升,它们可以越来越多地生成有用的基准问题或评估提示。研究表明,LLM 可以用于生成任意维度的静态基准数据集,通过使用基于人类偏好的奖励模型来过滤生成的数据集以确保质量。

  • LLM生成的评分:越来越多人使用 LLM 直接对其他模型的性能进行评分,并作为其他模型能力的“裁判”。这个概念的动机是,在许多领域,模型可能很难生成“正确”答案,但评估答案的正确性或判断两个答案之间相对质量往往更容易。然而,这些技术产生的评估结果往往会因为“裁判”模型的不同而有很大差异,并存在鲁棒性问题,不能很好地替代人类判断。

挑战 13:生成的文本和人类写的文本之间的无法区分性

大语言模型生成的文本可能与人类编写的文本相似度极高,这可能导致诸如虚假信息传播等问题。

检测由语言模型生成的文本的重要性体现在防止虚假信息传播、抄袭、冒充或身份窃取以及自动欺诈等方面。然而,随着语言模型流畅度的提高,检测这些文本变得更加困难。

为了解决这个问题,有两种方法:

  • 事后检测器:通过统计不太可能出现的标记来帮助人类检测生成的文本。

  • 水印方案:改变文本生成过程,使其更容易检测。

在事后检测方法中,一些研究探索使用能量模型来区分真实文本和伪造文本,还有人研究使用近似模型对马赛克样本进行判别。在水印方案中,研究者使用隐式模式来标记生成文本,该模式只有计算机能够识别,而人类无法察觉,以便在推理阶段更容易检测出来。

为了避免机器生成的文本被检测出来,可以对生成的文本进行改写,来消除语言模型的特征。研究人员通过训练一个生成近义词的模型,可以重写语言模型生成的文本,保留大致相同的意思,但改变文字或句子结构。对抗这种攻击的方法之一是将模型生成的文本存储在数据库中,并在需要时检索语义上相似的文本。

此外,研究人员还探讨了如何通过多次查询带有水印的语言模型来提取其水印方案,并伪造成被错误分类为模型生成的人类文本的情况。由于水印检测的可靠性不确定,文本检测变得更加困难

挑战 14:无法通过规模解决的任务

有些任务可能需要更深入、更具针对性的方法,而非仅仅依赖于模型的规模。

LLM 的能力令研究界不断称奇,例如在 MMLU 基准测试上取得高性能,超过了人类预测者的预期。OpenAI 也发布了更新的 GPT 版本,如 GPT-3.5 和 GPT-4,其中 GPT-4 在各种任务上明显优于 GPT-3.5。这些进展引发了对当前的数据或模型扩展范式是否存在克服的限制的质疑

逆向缩放(IS)是随着模型规模和训练损失的增加,任务性能会变差某些任务可能不会从进一步的模型或数据集扩展中获益,例如反事实任务。这类任务在改变特定输入输出条件但保持一般推理过程时,LLM 的性能会变差。研究者发现,LLM 对于不常见的反事实条件表现得越差,这被称为“类记忆效应”。作者呼吁进一步研究是否增加模型规模会因为更多的记忆效应而导致性能恶化还是因为规模优化的预训练方法会扩展数据集,从而包含更多具有不寻常条件的任务。

挑战 15:缺乏实验设计

大型语言模型的研究可能缺乏足够的实验设计,这可能对其发现和解决问题的能力产生影响。

首先,如表 2 所示,作者指出许多论文缺乏控制实验,即通过逐个改变一个因素的方式进行实验,这可能是因为所需要的计算成本太高。没有进行控制实验会阻碍对 LLM 性能理解的科学进展。

854557b0d330620550e468fda5a5d70e.png
▲表2 综述中所选的 LLM 概览

其次,LLM 研究的设计空间通常是高维的,这增加了实验的复杂性。为了解决这个问题,作者建议使用贝叶斯优化和维度归约等技术来有效地探索设计空间。

最后,作者还提到 LLM 相比其他领域的模型具有更多的参数,因此计算需求、反馈循环时间和训练成本更高

挑战 16:缺乏可重复性

大语言模型的训练和运行可能缺乏足够的透明度和标准化,这可能影响其结果的可重复性和公正性。

实证结果可重复性对于验证科学主张和排除实验协议中的错误非常重要。在研究人员试图建立在不可重复结果基础上的研究时,可能会浪费资源。然而,在 LLM 研究中存在两个可重复性问题:

  1. 训练的可重复性:涉及多个计算节点之间的并行处理。节点之间的调度和通信策略可能是非确定性的,这种变异性可能会影响最终结果,特别是在“非排序不变”算法(如随机梯度下降)中更为明显。此外,由于资金、隐私和法律限制,一些预训练数据集包含用户必须自己爬取的网页内容索引,而非使用静态的独立存档。因此,如果数据集收集者在他们下载数据集时所用的源发生了变化,可重复性就很容易受到损害

  2. 由闭源 API 提供的模型的生成可重复性:是商业 LLM 模型的另一个特殊情况,它们通常在黑盒环境中使用,带来以下挑战:

  • 服务提供者对模型拥有完全的控制权,可以引入未公开的更改,包括重新训练模型、修改参数或完全替换模型;

  • 即使模型更新已经被通知,仍然存在关于是否会继续维持访问特定模型版本的不确定性;

  • 即使将解码温度设置为零,API 模型还经常产生随机输出。有研究人员提供初步证据,证实了 API 提供的模型性能的巨大变化。

因此,API 提供的模型通常是不可重现的。尽管可以依赖开源LLM模型来解决这个问题,但因为算力和资源的限制,目前看来这个方法并不完全可行。

小结

在利用 LLM 技术时,我们不能完全将决策权交给机器,需要保持对技术的审慎和理性,不盲目依赖机器的意见,而是结合自身的判断和价值观做出决策。面对当前的挑战,我们需要建立合适的监管和伦理框架,引导其发展和应用。同时,我们也应该鼓励创新和研究,推动技术的进步,并确保其能够为社会进步做出积极贡献。

在不断追求技术进步的同时,我们不能忽视人类的智慧和价值。技术应该成为人类的工具,辅助我们取得更大的成就和进步。在面对LLM技术的挑战时,我们应该始终牢记人类的尊严和自主权,确保技术的应用始终服务于人类的福祉和发展。只有这样,我们才能真正实现技术与人类共同进步的目标。

总之,虽然 LLM 的研究和应用目前取得了显著进展,但我们还有许多问题需要解决。期待更多的研究投入和跨学科合作,以推动 LLM 技术的发展,在各个领域实现更深入、更广泛的应用,来改善我们的日常生活与工作。

 
 

50e33194fd29f0637536b0b869b8e1a1.jpeg

 
 
 
 
 
 
 
 
  1. 往期精彩回顾
  2. 适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑机器学习交流qq群955171419,加入微信群请扫码
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/771003
推荐阅读
相关标签
  

闽ICP备14008679号