NLP--名词概述【笔记】

作者：知新_RL | 2024-04-21 00:51:09

踩

NLP--名词概述【笔记】

文章要点

作为一名NLPer，你会不会在日常读论文、读帖子或者讨论时，时常会出现一些简称词，让你困惑，其到底是什么意思。本篇文章旨在能让我们明白这些词全称是什么，以及其代表的是什么意思，希望能让你“知其然”，若想“知其所以然”，得去实践哟！

名词解释

名词	全称	释义
NER	Named-entity recognition，名词-实体识别	分辨出文本中的名词和实体 (person人名, organization组织机构名, location地点名…)
POS	Part-of-speech tagging，词性标注	根据语法对token进行词性标注 (noun名词, verb动词, adjective形容词…)
LLM	Large Language Models，大规模语言模型	大规模语言模型，是一种包含数百亿以上参数的深度神经网络构建的语言模型，使用自监督学习方法通过大量无标注文本进行训练
GPT	Generative Pre-Training，生成式预训练语言模型	GPT模型使用了Transformer架构，这是一种广泛用于自然语言处理任务的深度学习模型。
LSH	Local-Sensitive Hashing，局部敏感哈希	基于哈希函数的技术，用于将数据点映射到哈希桶中，从而使相似的数据点具有较高的概率被映射到相同的桶中。
Symbol-to-Word Ratio	符号词比	在自然语言处理任务中，输入文本中的符号数量与词数量之间的比率。常用于衡量文本的稀疏性或密度，以及对文本进行处理或分析时的复杂度。
UGC	User-Generated Content，用户生成内容	由普通用户创造、发布和共享的各种形式的内容。特点是大量、多样化、实时性和用户参与性强
PII	PersonallyIdentifiable Information，敏感个人信息	可以识别、联系或定位特定个人的敏感数据，包括身份、联系、财务、健康和私人生活等方面的信息
OOV	Out-of-vocabulary，未登录词	在NLP任务的训练数据中未被包含或未被模型学习到词语。出现原因：数据限制、新词、低频词
BPE	Byte Pair Encoding，字节对编码	词元化编码技术。常用于NLP中的词汇表示和分词任务
Distributed Training	分布式训练	用多台计算机或设备进行协同工作，共同训练一个模型。通常有一个主节点（master node）和多个工作节点（worker node）。主节点负责协调和管理训练任务，而工作节点负责执行计算和梯度更新。主节点将训练数据划分为多个批次，并将它们分发给各个工作节点进行计算。每个工作节点使用本地的计算资源和模型副本来计算梯度，并将梯度汇总给主节点。主节点根据汇总的梯度更新模型参数，并将更新后的参数发送回工作节点。这个过程不断迭代，直到达到预定的训练轮数或收敛条件。
N-gram	n元语法或n 元文法	假设任意单词 $w_i$ 出现的概率只与过去 n − 1 个词相关，即： $\begin{aligned} P (w_{i} \| w_{1} w_{2} . . . w_{i - 1}) & = P (w_{i} \| w_{i - (n - 1)} w_{i - (n - 2)} . . . w_{i - 1}) \\ P (w_{i} \| w_{1}^{i - 1}) & = P (w_{i} \| w_{i - n + 1}^{i - 1}) \end{aligned}$
NLM	Neural Language Models，神经语言模型	循环神经网络【RNN】、卷积神经网络【CNN】、端到端记忆网络【seq2seq】等神经网络方法都成功应用于语言模型建模。相较于 n 元语言模型，神经网络方法可以在一定程度上避免数据稀疏问题，有些模型还可以避免对历史长度的限制，从而更好的建模长距离依赖关系
PLM	Pre-trained Language Models，预训练语言模型	在大规模文本数据上进行预训练的深度学习模型。将预训练模型应用于下游任务时，不需要了解太多的任务细节，不需要设计特定的神经网络结构，只需要“微调”预训练模型，即使用具体任务的标注数据在预训练语言模型上进行监督训练，就可以取得显著的性能提升
ICL	In-Context Learning，语境学习，也称上下文学习	使用训练完好的语言模型估计给定示例条件下的条件概率分布模型。给语言模型一个 “提示（prompt）”，该提示是一个由输入输出对组成的列表，这些输入输出对用来描述一个任务。
MaaS	Model as a Service，模型即服务范式	将机器学习模型作为服务(Maa 服务)的方式，允许用户在不需要拥有自己的硬件设备或专业技能的情况下，使用高质量的机器学习算法和模型。主要包括三个方面的服务: 模型训练服务、模型部署服务和模型调用服务。
Scaling Laws	缩放法则	指出模型的性能依赖于模型的规模，包括：参数数量、数据集大小和计算量，模型的效果会随着三者的指数增加而线性提高。模型的损失（Loss）值随着模型规模的指数增大而线性降低。
Instruction Tuning	指令微调	通过给模型提供指令和选项的方式，使其能够提升Zero-Shot任务的能力。让模型对描述式的指令进行学习。
SFT	Supervised Finetuning，有监督微调	利用少量高质量数据集合，包含用户输入的提示词（Prompt）和对应的理想输出结果。用户输入包括问题、闲聊对话、任务指令等多种形式和任务。指在已经训练好的语言模型的基础上，通过使用有标注的特定任务数据进行进一步的微调，从而使得模型具备遵循指令的能力。
RM	Reward Modeling，奖励建模	是一种强化学习技术，用于根据人类反馈来学习如何更好地进行决策，从而获得更高的累积奖励值。在强化学习中，智能体通过不断地与环境进行交互，从中获得一定的奖励值。奖励模型可以描述和计算每一次交互中智能体获得的奖励值，并且根据这些奖励值，智能体可以学习到如何更好地进行决策，从而获得更高的累积奖励值。
RL	Reinforcement Learning，强化学习	一种机器学习方法，通过与环境的交互学习最优的行为策略。强调如何基于环境而行动，以取得最大化的预期利益
AGI	Artificial General Intelligence，通用人工智能	是具备与人类同等智能、或超越人类的人工智能，能表现正常人类所具有的所有智能行为。
CPU	Central Processing Unit，中央处理器
GPU	Graphics Processing Unit，图形处理器
TPU	Tensor Processing Unit，张量处理器
NPU	Neural network Processing Unit，神经网络处理器
DP	Data Parallelism，数据并行	对数据进行切分（Partition），并将同一个模型复制到多个设备上，并行执行不同的数据分片
MP	Model Parallelism，模型并行	对模型进行划分，将模型中的算子分发到多个设备分别完成
HP	Hybrid Parallelism，混合并行	当训练超大规模语言模型时，往往需要同时对数据和模型进行切分，从而实现更高程度的并行
PP	Pipeline Parallelism，流水线并行	按模型的层切分到不同设备，即层间并行或算子间并行（Inter-operator Parallelism），属于模型并行【将模型的各个层分段处理，并将每个段分布在不同的计算设备上，使得前后阶段能够流水式、分批进行工作】
TP	Tensor Parallelism，张量并行	将计算图层内的参数切分到不同设备，即层内并行或算子内并行（Intra-operator Parallelism），属于模型并行【根据模型的具体结构和算子类型，解决如何将参数切分到不同设备，以及如何保证切分后数学一致性两个问题】
FP64/float64	双精度浮点数、64位浮点数	所占字节数为8字节（浮点数存储方式，由符号位（sign）、指数位（exponent）和小数位（fraction）三部分组成。符号位都是1位，指数位影响浮点数范围，小数位影响精度。）
FP32/float32	单精度浮点数、32位浮点数	FP32 中第 31 位为符号位，第 30 到第 23 位用于表示指数，第 22 到第 0 位用于表示尾数。
FP16/half	半精度浮点数、16位浮点数	FP16 中第 15 位为符号位，第14 到第 10 位用于表示指数，第 9 到第 0 位用于表示尾数。
BF16	半精度浮点数、16位浮点数	BF16 中第 15 位为符号位，第 14 到第 7 位用于表示指数，第 6 到第 0 位用于表示尾数。
ZeRO	Zero Redundancy Data Parallelism，零冗余优化器	一种用于大规模训练优化的技术，主要是用来减少内存占用。ZeRO 将模型参数分成了三个部分：Optimizer States、Gradient 和 Model Parameter。在使用 ZeRO 进行分布式训练时，可以选择 ZeRO-Offload 和 ZeRO-Stage3 等不同的优化技术。
HPC	High Performance Computing Cluster，高性能计算集群	由多台计算节点组成的并行计算系统。它是为了解决复杂、大规模计算问题而设计的计算资源池。通常由计算节点、通信网络、分布式文件系统、作业调度系统、管理节点组成。
PS	Parameter Server，参数服务器架构	用于管理和共享模型参数，其基本思想是将模型参数存储在一个或多人中央服务器亡，并通过网络将这些参数共享给参与训练的各人计算节点。每人计算节点可以从参数服务器中获取当前模型参数，并将计算结果返回给参数服务器进行更新。
Prompt-based Learning	提示学习	不同于传统的监督学习，它直接利用了在大量原始文本上进行预训练的语言模型，并通过定义一个新的提示函数，使得该模型能够执行小样本甚至零样本学习，以适应仅有少量标注或没有标注数据的新场景。
LoRA	Low-Rank Adaptation of Large Language Models，大语言模型的低阶自适应	基本原理是冻结预训练好的模型权重参数，在冻结原模型参数的情况下，通过往模型中加入额外的网络层，并只训练这些新增的网络层参数。由于这些新增参数数量较少，这样不仅 finetune 的成本显著下降，还能获得和全模型参数参与微调类似的效果。
AdaLoRA	Adaptive Budget Allocation for Parameter Efficient Fine-Tuning	在微调过程中根据各权重矩阵对下游任务的重要性动态调整秩的大小，用以进一步减少可训练参数量的同时保持或提高性能
3H原则		大语言模型输出的结果应该满足帮助性（Helpfulness）、真实性（Honesty）以及无害性（Harmless）的 3H 原则
RLHF	Reinforcement Learning from Human Feedback，基于人类反馈的强化学习	使用基于人类偏好的标注数据。根据人类反馈来对模型的响应进行排序标注 (如，根据人类偏好选择文本简介)。然后，用这些带标注的响应来训练偏好模型，该模型用于返回 RL 优化器的标量奖励。最后，通过强化学习训练对话代理来模拟偏好模型。
PPO	Proximal Policy Optimization，近端策略优化算法	一种强化学习算法，旨在解决深度强化学习中的训练不稳定和样本效率低的问题。PPO算法是一种基于策略梯度的算法，它通过优化策略以最大化长期回报来训练智能体。具有简单、高效、稳定等优点。
PPO-Penalty	近端策略优化惩罚	PPO-Penalty 是用拉格朗日乘数法将 KL 散度的限制加入目标函数中，使其变为一个无约束的优化问题。
PPO-Clip	近端策略优化裁剪	PPO-Clip 算法则直接裁剪重要性权重，这样就可以不需要计算 KL 散度
GAE	Generalized Advantage Estimation，广义优势估计算法	是结合了 λ-return方法的优势函数估计，其平衡了强化学习中的方差和偏差，并被广泛应用于强化学习最新算法之中。
KLD	Kullback-Leibler divergence，KL散度	是一种统计学度量，表示的是一个概率分布相对于另一个概率分布的差异程度，在信息论中又称为相对熵（Relative entropy）
MC	Monte Carlo Methods，蒙特卡洛方法	从环境中采样完整的一次交互过程的方法
CoT	Chain-of-Thought，思维链	将问题输入给模型外，还将类似题目的解题思路和步骤输入模型，使得模型不仅输出最终结果，还输出中间步骤，从而提升模型的推理能力的方法。
JCT	Job Completion Time，多作业完成时间	一批作业的平均完成时间，指标能够代表系统性能
MMLU	Massive Multitask Language Understanding，多语言理解	是一种新的基准，旨在通过仅在零射击和少射击设置中评估模型来衡量预训练期间获得的知识。这使得基准测试更具挑战性，更类似于我们评估人类的方式
QuAc	Question Answering in Context，对话系统问答数据集	是一个基于上下文语境的问答数据集，它包含了14K个信息搜寻的问答对话(总共有100K个问题)

总结

上表中涵盖了自然语言处理（NLP）任务中大量的名词以及其释义，该表只为你能简单了解其概念是什么，该概念所对应的相关技术点，得静心去读论文，去查找。

PS：若表中没有找到你所查找的词，望你留言，我及时补充。

以上是我个人在学习过程中的记录所学，希望对正在一起学习的小伙伴有所帮助！！！
如果对你有帮助，希望你能一键三连【关注、点赞、收藏】！！！

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/知新_RL/article/detail/460242